Eksploracja danych (data mining)
|
|
- Stefan Piasecki
- 8 lat temu
- Przeglądów:
Transkrypt
1 Eksploracja (data mining) Tadeusz Pankowski Czym jest eksploracja? Eksploracja oznacza wydobywanie wiedzy z dużych zbiorów. Eksploracja badanie, przeszukiwanie; np. dziewiczych obszarów Afryki (Słownik poprawnej polszczyzny PWN 1976). Eksplorować przemierzać jakiś teren w celach badawczych; eksplorować dziewiczą puszczę (jak wyżej) Cel eksploracji wydobycie wiedzy z (ang. knowledge mining from data). Jeden z istotnych etapów w procesie odkrywania wiedzy w bazach Knowledge Discovery in Databases (KDD) niekiedy rozumiany jest jako synonim KDD. 1 2 Eksploracja w procesie odkrywania wiedzy w bazach (KDD) Eksploracja jako etap w procesie odkrywania wiedzy 1. Czyszczenie (data cleaning) usuwanie zanieczyszczeń i niespójności w. 2. Integracja (data integration) łączenie pochodzących z różnorodnych źródeł. 3. Selekcja (data selection) wybieranie tych z bazy, które są istotne dla zadań analizy. 4. Transformacja (data transformation) przekształcanie i konsolidowanie do postaci przydatnej dla eksploracji, na przykład ich sumowanie i/lub agregowanie (np. w hurtowni ). 5. Eksploracja (data mining) stosowanie inteligentnych metod w celu odkrycia istotnych zależności zwanych wzorcami (patterns). 6. Ocena wzorców (pattern evaluation) identyfikacja naprawdę interesujących wzorców w oparciu o pewne miary ważności. 7. Reprezentacja wiedzy (knowledge presentation) przedstawienie odkrytej wiedzy użytkownikowi za pomocą technik wizualizacji i reprezentacji wiedzy. 3 Użytkownik Bazy Hurtownia Czyszczenie i integracja Wiedza Selekcja i transformacja Pliki Ocena i prezentacja Wzorce Eksploracja 4
2 Metody techniki eksploracji Eksploracja obejmuje szereg technik z różnych dyscyplin, takich jak: technologie baz statystyka uczenie maszynowe techniki obliczeń wielkiej skali rozpoznawanie wzorców sieci neuronowe wizualizacja wyszukiwanie informacji przetwarzanie obrazów i dźwięku analiza przestrzennych 5 Znaczenie eksploracji 1. Wynikiem eksploracji powinno być odkrycie interesującej wiedzy, regularności i uzyskanie informacji na wysokim poziomie ogólności, która może być prezentowana z różnych punktów widzenia. 2. Odkryta wiedza powinna być użyteczna dla podejmowania decyzji, sterowania procesami, zarządzania informacją a także do udzielania odpowiedzi na różne zapytania. 3. Eksploracja może być przeprowadzana na każdym rodzaju repozytorium : relacyjnych bazach, hurtowniach, bazach transakcji, plikach, sieci WWW, przestrzennych bazach, bazach multimedialnych, arkuszach kalkulacyjnych, strumieniach, itp. 6 Funkcjonalność eksploracji - rodzaje odkrywanych wzorców 1. Ogólny podział poszukiwanych wzorców w zadaniach eksploracji : wzorce opisujące (deskrypcyjne) charakteryzują ogólne właściwości w bazie, wzorce przewidujące (predykcyjne) na podstawie analizy aktualnych właściwości określają ich przyszłe właściwości. 2. Użytkownik często nie wie, jaki rodzaj wzorców w zbiorze jego może być interesujący i może żądać jednoczesnego odkrywania różnych rodzajów wzorców. 3. System eksploracji powinien być w stanie odkrywać wzorce różnego rodzaju i na różnych poziomach granulacji (tj. na różnych poziomach ogólności). 4. System eksploracji powinien być w stanie wykorzystać wskazówki i wiedzę użytkownika co do rodzaju wzorców. Opis klas: charakteryzacja a dyskryminacja 1. Dane są zwykle grupowane w klasy, np. komputery i drukarki (dla towarów), dobryklient i słabyklient (dla klientów), TAK i NIE dla grup uczniów chcących studiować i nie mających takich planów. 2. Często może być interesujący opis klas. Opis taki może być zrealizowany jako: charakteryzacja klasy opis wspólnych właściwości elementów tworzących klasę. Na przykład: wspólna charakterystyka klientów kupujących za więcej niż PLN rocznie tworzy profil tej klasy klientów. Opis tego profilu maże być: osoba w wieku lat, o stałym zatrudnieniu, posługująca się kartą kredytową. dyskryminacja klas polega na porównaniu rozróżniającym elementy klasy od innych klas. Koncentrujemy się na cechach wyróżniających opisywaną klasę. Przykład: 80 % osób z klasy dobryklient jest w wieku lat i ma wyższe wykształcenie, a 60% osób z klasy słabyklien to emeryci lub osoby poniżej 25 lat i nie mają wyższego wykształcenia. 7 8
3 Analiza asocjacji (związków) (association analysis) 1. Analizą asocjacji nazywamy odkrywanie reguł asocjacyjnych (association rules) obrazujących wspólne i częste występowanie określonych kombinacji par atrybut-wartość w zbiorze. 2. Analiza asocjacji jest szeroko używana w analizie koszyka zakupów zwanej też analizą transakcji. 3. Reguła asocjacyjna ma postać: X Y, tzn: A 1... A n B 1... B m, gdzie każde A i i każde B j jest parą atrybut-wartość. 4. Reguła asocjacyjna X Y interpretowana jest następująco: krotki w bazie spełniające warunek X wystarczająco często spełniają również warunek Y. Reguły asocjacyjna - przykład 1. W sklepie Elektronika odkryto następującą regułę asocjacyjną: wiek(x, ) dochód(x, ) kupuje(x, CD-RW ) [wsparcie = 2%, ufność = 60%] x oznacza klienta. 2. Reguła mówi, że 2% (wsparcie, support) transakcji zakupów w Elektronice dotyczyło klientów w wieku od 30 do 39 lat o dochodach od 1500 do 2900 PLN i kupujących CD-RW. 60% (ufność, confidence) transakcji dokonanych przez osoby w wieku 30 do 39 lat i o dochodach z przedziału dotyczyło zakupu CD-RW. 3. Jest to przykład wielowymiarowej reguły asocjacyjnej (występują trzy predykaty: wiek, dochód, kupuje) Reguły asocjacyjna przykład 2 1. Reguła określająca, jakie artykuły sprzedawane są łącznie w tej samej transakcji: zawiera(t, monitor ) zawiera(t, CD-RW ) [wsparcie = 1%, ufność = 50%] T oznacza transakcję. 2. Reguła stwierdza, że jeśli transakcja dotyczy zakupu monitora, to istnieje 50% szansy, iż dotyczy ona także zakupu CD-RW. Ponadto 1% wszystkich transakcji dotyczy sprzedaży obydwu tych artykułów łącznie. 3. Jest to przykład jednowymiarowej reguły asocjacyjnej, bo występuje w niej tylko jeden predykat - zawiera. 4. Reguły jednowymiarowe zapisujemy podając tylko wartości atrybutów oraz wsparcie i ufność, na przykład: monitor CD-RW [1%, 50%] 11 Klasyfikacja i predykcja 1. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania modeli (lub funkcji) klasyfikacji umożliwiających określenie klasy, do której powinien należeć wskazany obiekt. 2. Model klasyfikacji budowany jest w wyniku analizy zbioru treningowych, tj. zbioru obiektów o znanej przynależności klasowej. 3. Model klasyfikacji może być reprezentowany za pomocą: reguł o postaci IF_THEN, drzew decyzyjnych, sieci neuronowych, innych metod. 12
4 Klasyfikacja i predykcja drzewa decyzyjne i sieci neuronowe 1. Drzewo decyzyjne (ang. decision tree) jest strukturą drzewiastą, w której: każdy wierzchołek (z wyjątkiem liści) oznacza testowanie wartości pewnego atrybutu analizowanego obiektu, każda krawędź wychodząca z wierzchołka reprezentuje wynik testu, każdy liść oznacza klasę, do której należy obiekt. 2. Sieć neuronowa (ang. neural network), w zastosowaniach do problemów klasyfikacji, składa się ze współpracujących ze sobą jednostek przetwarzania zwanych neuronami, między którymi istnieją połączenia o określonych wagach (będących wartościami liczbowymi). 13 Klasyfikacja z predykcja drzewa decyzyjne i sieci neuronowe 1. Model klasyfikacji jest przede wszystkim używany do określenia klasy, do której obiekt należy. 2. Metoda ta może być jednak również stosowana do przewidywania nieznanych wartości atrybutów mówimy wtedy o predykcji. 3. Predykcja może dotyczyć w szczególności określenia trendów rozwoju na podstawie dostępnych. 4. Odkrywanie modeli klasyfikacja i predykcji może być poprzedzone analizą istotności (ang. relevance analysis), w trakcie której identyfikujemy atrybuty nie mające znaczenia (nieistotne) dla procesów klasyfikacji i predykcji. Atrybuty te są następnie wyłączane z dalszych rozważań. 14 Klasyfikacja i predykcja przykład Analiza skupień (cluster analysis) 1. Przypuśćmy, że naszym zadaniem jest klasyfikacja artykułów w hipermarkecie do jednej z trzech klas odpowiadających reakcji sprzedaży artykułu w odpowiedzi na kampanię reklamową: duża reakcja, średnia reakcja, brak reakcji. 2. Należy zbudować model klasyfikacji na podstawie takich atrybutów opisowych artykułów jak: cena, branża, producent, typ, kategoria. 3. Zbudowany model klasyfikacji może mieć postać drzewa decyzyjnego. 4. Może się okazać, że tylko niektóre z atrybutów opisowych były istotne dla klasyfikacji (np. tylko cena) może to być wskazówką odnośnie do dalszych kampanii reklamowych. 1. Analiza skupień ma na celu utworzenie skupień (grup, klastrów, klas) obiektów, przy czym a priori może nie być znana ani liczba skupień, ani zasady przynależności obiektu do skupienia. 2. Obiekty są skupiane (grupowane) z wykorzystaniem zasady maksymalizacji podobieństw wewnątrz klas oraz minimalizacji podobieństwa między klasami. Obiekty należące do jednego skupienia charakteryzują się wysokim podobieństwem do siebie, natomiast bardzo się różnią od obiektów z innych skupień. 3. Analiza skupień może być przeprowadzona na klientach firmy w celu identyfikacji jednorodnych grup klientów. Grupy te mogą stanowić obiekty zainteresowań dla dedykowanych akcji marketingowych
5 Analiza skupień -przykład Analiza odchyleń (outlier analysis) 1. W bazie mogą być zawarte obiekty, które nie spełniają wymagań ogólnego modelu zachowań. Te obiekty nazywamy odchyleniami. W większości przypadków obiekty takie są odrzucane jako zakłócenia, śmieci lub wyjątki. 2. Niekiedy jednak identyfikacja takich odchyleń może być bardzo interesująca, na przykład w systemach wykrywania oszustw (fraud detection). 3. Odchylenia mogą być wykrywane z wykorzystaniem testów statystycznych, w których przyjmowany jest określony rozkład prawdopodobieństwa dla. Można też stosować miary odległości, a obiekty, których odległość od utworzonych skupień jest duża traktowane są jako odchylenia. Utworzone skupienia mogą odpowiadać miejscu zamieszkania klientów, np. w obrębie miasta Analiza odchyleń -przykład 1. Analiza odchyleń może wykryć nieuczciwe korzystanie z kart płatniczych wtedy, gdy stwierdzi zakupy na wyjątkowo dużą kwotę w porównaniu ze zwykle dokonywanymi zakupami z wykorzystaniem analizowanej karty. 2. Odchylenia mogą być również wykryte poprzez analizę lokalizacji lub typu dokonywanych zakupów. Analiza ewolucji (evolution analysis) 1. Analiza ewolucji opisuje i modeluje regularności lub trendy dla obiektów, których zachowanie zmienia się w czasie. 2. Analiza ewolucji obejmuje: analizę szeregów czasowych, odkrywanie sekwencji lub periodyczności, analiza podobieństwa
6 Analiza ewolucji - przykład Podsumowanie etapy odkrywania wiedzy w bazach 1. Przypuśćmy, że dysponujemy danymi z Warszawskiej Giełdy w postaci szeregów czasowych z okresu ostatnich siedmiu lat i chcemy zainwestować w akcje firm branży budowlanej. 2. Analiza zmian na giełdzie może wykazać istnienie pewnych regularności w ewolucji zmian wartości akcji w ogóle i akcji pewnych firm. 3. Regularności te mogą pomóc przewidzieć przyszłe trendy cen akcji i tym samym mogą pomóc nam w podjęciu decyzji inwestycyjnych. 21 Increasing potential to support business decisions Making Decisions Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP End User Business Analyst Data Analyst DBA Podsumowanie funkcjonalność metody odkrywania wiedzy 1. Charakteryzacja i dyskryminacja uogólnia i kontrastuje dane, np. klienci dobrzy kontra klienci słabi. 2. Asocjacje pozwala wykryć istotne i/lub przypadkowe współwystępowanie, np. monitor CD-RW [1%, 50%] 3. Klasyfikacja i predykcja pozwala przypisywać obiekty do klas, przewiduje nieznane wartości w tym przyszłe trendy. 4. Analiza skupień grupuje obiekty tworząc nowe klasy. 23 Podsumowanie funkcjonalność metody odkrywania wiedzy (c.d.) 5. Analiza odchyleń odchylenia są często traktowane jako wyjątki lub śmieci, często jednak mogą być istotne, np. w wykrywaniu oszustw. 6. Analiza ewolucji i trendów pozwala analizować i przewidywać zachowanie się zależnych od czasu. 7. Inne np. analiza statystyczna oraz metody zorientowane na odkrywanie wiedzy w multimedialnych (w obrazach, dźwięku,...) 8. Ocena przydatności odkrytych zależności. 24
Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski
Data Mining Wykład 1 Wprowadzenie do Eksploracji Danych Prowadzący Dr inż. Jacek Lewandowski Katedra Genetyki Wydział Biologii i Hodowli Zwierząt Uniwersytet Przyrodniczy we Wrocławiu ul. Kożuchowska 7,
Analiza danych i data mining.
Analiza danych i data mining. mgr Katarzyna Racka Wykładowca WNEI PWSZ w Płocku Przedsiębiorczy student 2016 15 XI 2016 r. Cel warsztatu Przekazanie wiedzy na temat: analizy i zarządzania danymi (data
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania
Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel
według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology
Wprowadzenie do technologii informacyjnej.
Wprowadzenie do technologii informacyjnej. Data mining i jego biznesowe zastosowania dr Tomasz Jach Definicje Eksploracja danych polega na torturowaniu danych tak długo, aż zaczną zeznawać. Eksploracja
Proces odkrywania wiedzy z baz danych
Proces odkrywania wiedzy z baz danych Wydział Informatyki Politechnika Białostocka Marcin Czajkowski email: m.czajkowski@pb.edu.pl Świat pełen danych Świat pełen danych Możliwości analizowania i zrozumienia
Plan prezentacji 0 Wprowadzenie 0 Zastosowania 0 Przykładowe metody 0 Zagadnienia poboczne 0 Przyszłość 0 Podsumowanie 7 Jak powstaje wiedza? Dane Informacje Wiedza Zrozumienie 8 Przykład Teleskop Hubble
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych
data mining machine learning data science
data mining machine learning data science deep learning, AI, statistics, IoT, operations research, applied mathematics KISIM, WIMiIP, AGH 1 Machine Learning / Data mining / Data science Uczenie maszynowe
Data Mining Kopalnie Wiedzy
Data Mining Kopalnie Wiedzy Janusz z Będzina Instytut Informatyki i Nauki o Materiałach Sosnowiec, 30 listopada 2006 Kopalnie złota XIX Wiek. Odkrycie pokładów złota spowodowało napływ poszukiwaczy. Przeczesywali
SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
Ewelina Dziura Krzysztof Maryański
Ewelina Dziura Krzysztof Maryański 1. Wstęp - eksploracja danych 2. Proces Eksploracji danych 3. Reguły asocjacyjne budowa, zastosowanie, pozyskiwanie 4. Algorytm Apriori i jego modyfikacje 5. Przykład
Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2
Data Mining Wykład 2 Odkrywanie asocjacji Plan wykładu Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych Geneza problemu Geneza problemu odkrywania reguł
Klasyfikacja metodą Bayesa
Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo
Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu
i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2012 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę
WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza
METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING WSTĘP I TAKSONOMIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra
Inżynieria biomedyczna
Inżynieria biomedyczna Projekt Przygotowanie i realizacja kierunku inżynieria biomedyczna studia międzywydziałowe współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego.
HURTOWNIE DANYCH I BUSINESS INTELLIGENCE
BAZY DANYCH HURTOWNIE DANYCH I BUSINESS INTELLIGENCE Akademia Górniczo-Hutnicza w Krakowie Adrian Horzyk horzyk@agh.edu.pl Google: Horzyk HURTOWNIE DANYCH Hurtownia danych (Data Warehouse) to najczęściej
Wprowadzenie do Hurtowni Danych. Mariusz Rafało
Wprowadzenie do Hurtowni Danych Mariusz Rafało mariusz.rafalo@hotmail.com WPROWADZENIE DO HURTOWNI DANYCH Co to jest hurtownia danych? Hurtownia danych jest zbiorem danych zorientowanych tematycznie, zintegrowanych,
METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza
METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING EKSPLORACJA DANYCH Ćwiczenia Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"
PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych
Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu
i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2007 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę
Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów
Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie
Eksploracja danych Jacek Rumiński
Eksploracja danych Jacek Rumiński slajd 1 Kontakt: Katedra Inżynierii Biomedycznej, pk. 106, tel.: 3472678, fax: 3461757, e-mail: jwr@eti.pg.gda.pl Źródła, Internet, SQL/MM i inne standardy (dodatkowy
Techniki i algorytmy eksploracji danych. Geneza (1) Geneza (2)
Techniki i algorytmy eksploracji danych Tadeusz Morzy Instytut Informatyki Politechnika Poznańska str. 1 Geneza (1) Dostępność danych Rozwój nowoczesnych technologii przechowywania i przetwarzania danych
Eksploracja Danych. podstawy
Eksploracja Danych podstawy Bazy danych (1) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 2/633 Bazy danych (2) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 3/633
Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na
Techniki indeksowania w eksploracji danych Maciej Zakrzewicz Instytut Informatyki Politechnika Poznańska Plan prezentacji Zastosowania indeksów w systemach baz danych Wprowadzenie do metod eksploracji
Hurtownie danych. Wstęp. Architektura hurtowni danych. http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH
Wstęp. Architektura hurtowni. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH B. Inmon, 1996: Hurtownia to zbiór zintegrowanych, nieulotnych, ukierunkowanych
SPOTKANIE 2: Wprowadzenie cz. I
Wrocław University of Technology SPOTKANIE 2: Wprowadzenie cz. I Piotr Klukowski Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.edu.pl 17.10.2016 UCZENIE MASZYNOWE 2/27 UCZENIE MASZYNOWE = Konstruowanie
w ekonomii, finansach i towaroznawstwie
w ekonomii, finansach i towaroznawstwie spotykane określenia: zgłębianie danych, eksploracyjna analiza danych, przekopywanie danych, męczenie danych proces wykrywania zależności w zbiorach danych poprzez
CLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
KLASYFIKACJA. Słownik języka polskiego
KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu
SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.
SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:
1. Odkrywanie asocjacji
1. 2. Odkrywanie asocjacji...1 Algorytmy...1 1. A priori...1 2. Algorytm FP-Growth...2 3. Wykorzystanie narzędzi Oracle Data Miner i Rapid Miner do odkrywania reguł asocjacyjnych...2 3.1. Odkrywanie reguł
Mail: Pokój 214, II piętro
Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,
Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych
Temat: Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych Autorzy: Tomasz Małyszko, Edyta Łukasik 1. Definicja eksploracji danych Eksploracja
Analiza i wizualizacja danych Data analysis and visualization
KARTA MODUŁU / KARTA PRZEDMIOTU Załącznik nr 7 do Zarządzenia Rektora nr 10/12 z dnia 21 lutego 2012r. Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2012/2013
Metody eksploracji danych. Reguły asocjacyjne
Metody eksploracji danych Reguły asocjacyjne Analiza podobieństw i koszyka sklepowego Analiza podobieństw jest badaniem atrybutów lub cech, które są powiązane ze sobą. Metody analizy podobieństw, znane
Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie
Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2012 Zagadnienia do omówienia 1. Miejsce i rola w firmie 2. Przegląd architektury
Business Intelligence jako narzędzie do walki z praniem brudnych pieniędzy
Business www.comarch.pl Intelligence jako narzędzie do walki z praniem brudnych pieniędzy Business Intelligence jako narzędzie do walki z praniem brudnych pieniędzy Tomasz Matysik Kołobrzeg, 19.11.2009
Podstawy sztucznej inteligencji
wykład 7 Eksploracja danych 25 stycznia 2011 Plan wykładu Co to jest eksploracja danych? 1 Co to jest eksploracja danych? 2 3 Definicja Eksploracja danych ED (Data mining) Metody wydobywania ukrytych informacji
METODY EKSPLORACJI DANYCH I ICH ZASTOSOWANIE
Zeszyty Naukowe PWSZ w Płocku Nauki Ekonomiczne, t. XXI, 2015. Państwowa Wyższa Szkoła Zawodowa w Płocku METODY EKSPLORACJI DANYCH I ICH ZASTOSOWANIE Wprowadzenie Współczesne firmy przechowują i przetwarzają
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006
Metadane. Data Maining. - wykład VII Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Plan 1. Metadane 2. Jakość danych 3. Eksploracja danych (Data mining) 4. Sprawy róŝne
dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017
dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017 KONTAKT Z PROWADZĄCYM dr inż. Paweł Morawski e-mail: pmorawski@spoleczna.pl www: http://pmorawski.spoleczna.pl
Usługi analityczne budowa kostki analitycznej Część pierwsza.
Usługi analityczne budowa kostki analitycznej Część pierwsza. Wprowadzenie W wielu dziedzinach działalności człowieka analiza zebranych danych jest jednym z najważniejszych mechanizmów podejmowania decyzji.
Odkrywanie asocjacji
Odkrywanie asocjacji Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Odkrywanie asocjacji wykład 1 Wykład jest poświęcony wprowadzeniu i zaznajomieniu się z problemem odkrywania reguł asocjacyjnych.
Implementacja metod eksploracji danych - Oracle Data Mining
Implementacja metod eksploracji danych - Oracle Data Mining 395 Plan rozdziału 396 Wprowadzenie do eksploracji danych Architektura Oracle Data Mining Możliwości Oracle Data Mining Etapy procesu eksploracji
Business Intelligence
Business Intelligence Paweł Mielczarek Microsoft Certified Trainer (MCT) MCP,MCSA, MCTS, MCTS SQL 2005, MCTS SQL 2008, MCTS DYNAMICS, MBSS, MBSP, MCITP DYNAMICS. Geneza Prowadzenie firmy wymaga podejmowania
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po
HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego
HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego http://www.jakubw.pl/zajecia/hur/bi.pdf http://www.jakubw.pl/zajecia/hur/dw.pdf http://www.jakubw.pl/zajecia/hur/dm.pdf http://www.jakubw.pl/zajecia/hur/
Eksploracja danych. Wielkie bazy danych. Zależności w bazach danych Przykład 1. Zależności w bazach danych Przykład 2
Wielkie bazy danych Eksploracja danych Marek Wojciechowski Instytut Informatyki Politechnika Poznańska Wielkie bazy danych (Very Large Databases) i hurtownie danych (Data Warehouses) Rozmiary współczesnych
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Wydział Informatyki i Zarządzania SWD NS 3. Marek Lubicz. kbo.pwr.edu.pl/pracownik/lubicz
Wydział Informatyki i Zarządzania SWD NS 3 Marek Lubicz marek.lubicz@pwr.wroc.pl kbo.pwr.edu.pl/pracownik/lubicz SWD 2016 MLubicz 2 Analityka biznesowa Analityka Biznesowa to wykorzystanie: danych, technologii
Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie
Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2008 Zagadnienia do omówienia 1. 2. Przegląd architektury HD 3. Warsztaty
Matematyka kodem nowoczesności. Zaproszenie do składania ofert
Uniwersytet Śląski Dział Logistyki ul. Bankowa 12 40-007 Katowice tel. (32) 359 19 07 mail: joanna.kozbial@us.edu.pl; Katowice 7.02.2014 r Zaproszenie do składania ofert Niniejsze postępowanie jest prowadzone
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Podstawy sztucznej inteligencji
wykład 7 Eksploracja danych 09 stycznia 2013 Plan wykładu Co to jest eksploracja danych? 1 Co to jest eksploracja danych? 2 3 Definicja Eksploracja danych ED (Data mining) Metody wydobywania ukrytych informacji
Wprowadzenie do technologii Business Intelligence i hurtowni danych
Wprowadzenie do technologii Business Intelligence i hurtowni danych 1 Plan rozdziału 2 Wprowadzenie do Business Intelligence Hurtownie danych Produkty Oracle dla Business Intelligence Business Intelligence
Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie... 3. 2 Wprowadzenie do biologicznych baz danych...
Przedmowa... XI Część pierwsza Wprowadzenie i biologiczne bazy danych 1 Wprowadzenie... 3 Czym jest bioinformatyka?... 5 Cele... 5 Zakres zainteresowań... 6 Zastosowania... 7 Ograniczenia... 8 Przyszłe
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,
Bazy Danych Bazy Danych i SQL Podstawowe informacje o bazach danych Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl Oczekiwania? 2 3 Bazy danych Jak przechowywać informacje? Jak opisać rzeczywistość?
dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych
- Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,
Eksploracja danych PROCES EKSPLORACJI DANYCH. Wojciech Waloszek. Teresa Zawadzka.
Eksploracja danych PROCES EKSPLORACJI DANYCH Wojciech Waloszek wowal@eti.pg.gda.pl Teresa Zawadzka tegra@eti.pg.gda.pl Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki
Rola analityki danych w transformacji cyfrowej firmy
Rola analityki danych w transformacji cyfrowej firmy Piotr Czarnas Querona CEO Analityka biznesowa (ang. Business Intelligence) Proces przekształcania danych w informacje, a informacji w wiedzę, która
Eksploracja Danych. Wprowadzenie. Co to jest eksploracja danych? Metody Zastosowania. Eksploracja danych. Wprowadzenie
Eksploracja Danych Wprowadzenie Co to jest eksploracja danych? Metody Zastosowania Wprowadzenie Celem wykładu jest wprowadzenie do tematyki eksploracji danych. Odpowiemy sobie na pytanie Czym jest eksploracja
Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki
Dariusz Banasiak Katedra Informatyki Technicznej Wydział Elektroniki Machine Learning (uczenie maszynowe, uczenie się maszyn, systemy uczące się) interdyscyplinarna nauka, której celem jest stworzenie
Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.
Analiza danych Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ REGUŁY DECYZYJNE Metoda reprezentacji wiedzy (modelowania
Alicja Marszałek Różne rodzaje baz danych
Alicja Marszałek Różne rodzaje baz danych Rodzaje baz danych Bazy danych można podzielić wg struktur organizacji danych, których używają. Można podzielić je na: Bazy proste Bazy złożone Bazy proste Bazy
Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach. http://zajecia.jakubw.
Hurtownie danych Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach. http://zajecia.jakubw.pl/hur UZASADNIENIE BIZNESOWE Po co nam hurtownia danych? Jakie mogą
Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU
Hurtownie danych Przetwarzanie zapytań. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Magazyny danych operacyjnych, źródła Centralna hurtownia danych Hurtownie
DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:
DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE: DATAMINING 1 S t r o n a WSTĘP Czyli jak zastąpić wróżenie z fusów i przysłowiowego nosa, statystyką i modelami ekonometrycznymi. Niniejszy dokument,
2
1 2 3 4 5 Dużo pisze się i słyszy o projektach wdrożeń systemów zarządzania wiedzą, które nie przyniosły oczekiwanych rezultatów, bo mało kto korzystał z tych systemów. Technologia nie jest bowiem lekarstwem
Odkrywanie wiedzy. Marcin Szeląg Zakład ISWD, Instytut Informatyki, Politechnika Poznańska
Odkrywanie wiedzy Marcin Szeląg Zakład ISWD, Instytut Informatyki, Politechnika Poznańska 7.10.2015 1 Plan prezentacji 1 Informacje organizacyjne 2 Zakres tematyczny przedmiotu 3 Wprowadzenie do Odkrywania
Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL
Podstawy baz danych: Rysunek 1. Tradycyjne systemy danych 1- Obsługa wejścia 2- Przechowywanie danych 3- Funkcje użytkowe 4- Obsługa wyjścia Ewolucja baz danych: Fragment świata rzeczywistego System przetwarzania
Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego
Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej Adam Meissner Adam.Meissner@put.poznan.pl http://www.man.poznan.pl/~ameis Elementy uczenia maszynowego Literatura [1] Bolc L., Zaremba
dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019
dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019 KONTAKT Z PROWADZĄCYM dr inż. Paweł Morawski e-mail: pmorawski@spoleczna.pl www: http://pmorawski.spoleczna.pl
Sposoby prezentacji problemów w statystyce
S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
O badaniach nad SZTUCZNĄ INTELIGENCJĄ
O badaniach nad SZTUCZNĄ INTELIGENCJĄ Wykład 7. O badaniach nad sztuczną inteligencją Co nazywamy SZTUCZNĄ INTELIGENCJĄ? szczególny rodzaj programów komputerowych, a niekiedy maszyn. SI szczególną własność
O badaniach nad SZTUCZNĄ INTELIGENCJĄ
O badaniach nad SZTUCZNĄ INTELIGENCJĄ Jak określa się inteligencję naturalną? Jak określa się inteligencję naturalną? Inteligencja wg psychologów to: Przyrodzona, choć rozwijana w toku dojrzewania i uczenia
WYKŁAD 1. Wprowadzenie w tematykę kursu
Wrocław University of Technology WYKŁAD 1 Wprowadzenie w tematykę kursu autor: Maciej Zięba Politechnika Wrocławska Informacje dotyczące zajęć Cykl 8 wykładów. Konsultacje odbywają się w sali 121 w budynku
Archipelag Sztucznej Inteligencji
Archipelag Sztucznej Inteligencji Istniejące metody sztucznej inteligencji mają ze sobą zwykle niewiele wspólnego, więc można je sobie wyobrażać jako archipelag wysp, a nie jako fragment stałego lądu.
Szkolenia SAS Cennik i kalendarz 2017
Szkolenia SAS Spis treści NARZĘDZIA SAS FOUNDATION 2 ZAAWANSOWANA ANALITYKA 2 PROGNOZOWANIE I EKONOMETRIA 3 ANALIZA TREŚCI 3 OPTYMALIZACJA I SYMULACJA 3 3 ROZWIĄZANIA DLA HADOOP 3 HIGH-PERFORMANCE ANALYTICS
Optymalizacja optymalizacji
7 maja 2008 Wstęp Optymalizacja lokalna Optymalizacja globalna Algorytmy genetyczne Badane czasteczki Wykorzystane oprogramowanie (Algorytm genetyczny) 2 Sieć neuronowa Pochodne met-enkefaliny Optymalizacja
Sylabus. Zaawansowana analiza danych eksperymentalnych Advanced analysis of experimental data
Sylabus Nazwa przedmiotu (w j. polskim i angielskim) Nazwisko i imię prowadzącego (stopień i tytuł naukowy) Zaawansowana analiza danych eksperymentalnych Advanced analysis of experimental data dr Veslava
Hurtownie danych. Analiza zachowań użytkownika w Internecie. Ewa Kowalczuk, Piotr Śniegowski. Informatyka Wydział Informatyki Politechnika Poznańska
Hurtownie danych Analiza zachowań użytkownika w Internecie Ewa Kowalczuk, Piotr Śniegowski Informatyka Wydział Informatyki Politechnika Poznańska 2 czerwca 2011 Wprowadzenie Jak zwiększyć zysk sklepu internetowego?
Eksploracja danych a serwisy internetowe Przemysław KAZIENKO
Eksploracja danych a serwisy internetowe Przemysław KAZIENKO Wydział Informatyki i Zarządzania Politechnika Wrocławska kazienko@pwr.wroc.pl Dlaczego eksploracja danych w serwisach internetowych? Kanały
Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne
Architektury i technologie integracji danych Systemy Mediacyjne Multi-wyszukiwarki Wprowadzenie do Mediacyjnych Systemów Zapytań (MQS) Architektura MQS Cechy funkcjonalne MQS Cechy implementacyjne MQS
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
OLAP i hurtownie danych c.d.
OLAP i hurtownie danych c.d. Przypomnienie OLAP -narzędzia analizy danych Hurtownie danych -duże bazy danych zorientowane tematycznie, nieulotne, zmienne w czasie, wspierjące procesy podejmowania decyzji
Analiza internetowa czyli Internet jako hurtownia danych
Analiza internetowa czyli Internet jako hurtownia danych Agenda 1. Hurtownie danych, eksploracja danych i OLAP 3. Internet 5. Analiza Internetowa 7. Google Analytics 9. Podsumowanie Hurtownie danych (definicja)
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Zagadnienia (1/3) Data-flow diagramy przepływów danych ERD diagramy związków encji Diagramy obiektowe w UML (ang. Unified Modeling Language)
Zagadnienia (1/3) Rola modelu systemu w procesie analizy wymagań (inżynierii wymagań) Prezentacja różnego rodzaju informacji o systemie w zależności od rodzaju modelu. Budowanie pełnego obrazu systemu
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja
Podstawy Sztucznej Inteligencji (PSZT)
Podstawy Sztucznej Inteligencji (PSZT) Paweł Wawrzyński Uczenie maszynowe Sztuczne sieci neuronowe Plan na dziś Uczenie maszynowe Problem aproksymacji funkcji Sieci neuronowe PSZT, zima 2013, wykład 12