DrąŜenie danych i inne tematy

Podobne dokumenty
Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Szczegółowy opis przedmiotu zamówienia

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

PRZEWODNIK PO PRZEDMIOCIE

Analiza danych. TEMATYKA PRZEDMIOTU

AUTOMATYKA INFORMATYKA

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

technologii informacyjnych kształtowanie , procesów informacyjnych kreowanie metod dostosowania odpowiednich do tego celu środków technicznych.

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Transformacja wiedzy w budowie i eksploatacji maszyn

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

KARTA MODUŁU KSZTAŁCENIA

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Wprowadzenie do teorii systemów ekspertowych

SZTUCZNA INTELIGENCJA

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

w ekonomii, finansach i towaroznawstwie

Prof. Stanisław Jankowski

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Metody drążenia danych D1.3

Stefan Sokołowski SZTUCZNAINTELIGENCJA. Inst. Informatyki UG, Gdańsk, 2009/2010

INFORMATYKA Pytania ogólne na egzamin dyplomowy

Sztuczna inteligencja stan wiedzy, perspektywy rozwoju i problemy etyczne. Piotr Bilski Instytut Radioelektroniki i Technik Multimedialnych

Systemy ekspertowe i sztuczna inteligencja. dr Agnieszka Nowak Brzezioska

Sztuczna inteligencja

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Systemy uczące się wykład 1

ZAGADNIENIA DO EGZAMINU DYPLOMOWEGO NA STUDIACH INŻYNIERSKICH. Matematyka dyskretna, algorytmy i struktury danych, sztuczna inteligencja

PRZEWODNIK PO PRZEDMIOCIE

Zagadnienia egzaminacyjne INFORMATYKA. Stacjonarne. I-go stopnia. (INT) Inżynieria internetowa STOPIEŃ STUDIÓW TYP STUDIÓW SPECJALNOŚĆ

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Data Mining Kopalnie Wiedzy

Systemy uczące się Lab 4

Meta-uczenie co to jest?

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

ALGORYTM RANDOM FOREST

KIERUNKOWE EFEKTY KSZTAŁCENIA

Kierunek Informatyka stosowana Studia stacjonarne Studia pierwszego stopnia

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Narzędzia AI. Jakub Wróblewski Pokój SZTUCZNA INTELIGENCJA (ARTIFICIAL INTELLIGENCE)

PRZEWODNIK PO PRZEDMIOCIE

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym

CZYM SĄ OBLICZENIA NAT A URALNE?

Optymalizacja optymalizacji

EFEKTY KSZTAŁCENIA DLA KIERUNKU STUDIÓW

Archipelag Sztucznej Inteligencji

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Ćwiczenie numer 4 JESS PRZYKŁADOWY SYSTEM EKSPERTOWY.

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

Drzewa Decyzyjne, cz.2

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Wprowadzenie do technologii informacyjnej.

INŻYNIERIA OPROGRAMOWANIA

Opis efektów kształcenia dla modułu zajęć

rodzaj zajęć semestr 1 semestr 2 semestr 3 Razem Lp. Nazwa modułu E/Z Razem W I

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania


Zagadnienia egzaminacyjne INFORMATYKA. stacjonarne. I-go stopnia. (INT) Inżynieria internetowa STOPIEŃ STUDIÓW TYP STUDIÓW SPECJALNOŚĆ

Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek:

Sztuczna inteligencja - wprowadzenie

5 Moduył do wyboru II *[zobacz opis poniżej] 4 Projektowanie i konfiguracja sieci komputerowych Z

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Wstęp do kognitywistyki. Wykład 3: Logiczny neuron. Rachunek sieci neuronowych

PRZEWODNIK PO PRZEDMIOCIE

Dostawa oprogramowania. Nr sprawy: ZP /15

Systemy Informatyki Przemysłowej

System informatyczny zdalnego egzaminowania

KARTA PRZEDMIOTU / SYLABUS

Definicje. Najprostszy schemat blokowy. Schemat dokładniejszy

Efekty kształcenia dla makrokierunku: INFORMATYKA STOSOWANA Z KOMPUTEROWĄ NAUKĄ O MATERIAŁACH Wydział: MECHANICZNY TECHNOLOGICZNY

Zakładane efekty kształcenia dla kierunku Wydział Telekomunikacji, Informatyki i Elektrotechniki

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA REALIZACJA W ROKU AKADEMICKIM 2016/2017

KARTA PRZEDMIOTU. Dyscyplina:

Odniesienie do efektów kształcenia dla obszaru nauk EFEKTY KSZTAŁCENIA Symbol

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Najprostszy schemat blokowy

Wprowadzenie do metodologii modelowania systemów informacyjnych. Strategia (1) Strategia (2) Etapy Ŝycia systemu informacyjnego

[1] [2] [3] [4] [5] [6] Wiedza

SI w procesach przepływu i porządkowania informacji. Paweł Buchwald Wyższa Szkoła Biznesu

STUDIA I MONOGRAFIE NR

Algorytmy i bazy danych (wykład obowiązkowy dla wszystkich)

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Metody klasyfikacji danych - część 1 p.1/24

Transkrypt:

DrąŜenie danych i inne tematy Materiały do wykładu Komputerowe Przetwarzanie Wiedzy (opracowane na podstawie materiałów dostępnych w sieci Internet) Tomasz Kubik

DrąŜenie danych (data mining) n Proces odkrywania istotnych zaleŝności (korelacji), wzorców i tendencji poprzez przesiewanie duŝych ilości danych przechowywanych w repozytoriach za pomocą technik rozpoznawania wzorców oraz technik statystycznych i matematycznych [Gartner Group]. n Automatyczne lub półautomatyczne badanie duŝych ilości danych w celu odkrycia istotnych wzorców i reguł [M. J. A. Berry i G. Linoff w ksiąŝce Data Mining Techniques ] n W polskim tłumaczeniu: gdrąŝenie danych, gzgłębianie danych, geksploracja danych, itp. 2

Odkrywanie wiedzy a drąŝenie danych n Odkrywanie wiedzy jest postrzegane jako złoŝony proces selekcji i transformacji danych, ich eksploracji, a następnie interpretacji uzyskanych wyników. W procesie tym dochodzi do wysoce intensywnego współdziałania człowieka i maszyny. n Systemem odkrywania wiedzy nazywane jest specjalizowane oprogramowanie wspomagające człowieka w odkrywaniu wiedzy, które zazwyczaj współpracuje z systemem zarządzania bazą danych. n DrąŜenie danych to nietrywialny proces odkrywania nowych (nieoczekiwanych), potencjalnie uŝytecznych regularności w danych. DrąŜenie danych jest jednym z elementów odkrywania wiedzy. 3

DrąŜenie danych n Wybrane cechy gdokładność często nie jest najwaŝniejsza gdane bywają niepełne i niepewne gdopuszcza się m.in. stosowanie metody czarnej skrzynki n Słowa kluczowe g Automatyzacja gpredykcja gukryte modele n Dyscypliny związane z drąŝeniem danych gsystemy baz danych gsztuczna inteligencja g Optymalizacja g Statystyka gobliczenia równoległe 4

Otoczenie drąŝenia danych n DąŜenie do uproszczenie i automatyzacja procesów statystycznych prowadzących od źródła danych do zastosowania modelu n Istnieje wiele róŝnych, dostępnych algorytmów i narzędzi n Dobór najlepszego rozwiązania wymaga uŝycia statystyki n Algorytmy posiadają wbudowaną sztuczną inteligencję 5

Algorytmy drąŝenia danych n klasyfikacja gto określenie wartości jednego konkretnego atrybutu klasy, na podstawie pozostałych atrybutów, a zwłaszcza ich podzbioru, moŝe to być dokonane w postaci jawnej np. drzewa decyzyjne, bądź niejawnej, np. sieci neuronowych, który jest następnie wykorzystywane do klasyfikowania nowych obiektów w bazie danych. n analiza skupień (klasteryzacja) gpodział danych na odpowiednią, nieznaną przed rozpoczęciem procesu, liczbę grup. Elementy w grupie muszą być bliskie sobie, sąsiadujące grupy powinny wykazywać pewne podobieństwa (podobieństwo mierzone jest funkcją odległości). gmoŝe być przeprowadzona równieŝ w oparciu o reguły logiczne (zbudowne na podstawie prezentacji przykładów pozytywnych i negatywnych) 6

Algorytmy drąŝenia danych n predykcja gumoŝliwia estymację przyszłych wartości badanych danych gwykorzystuje metody statystycznej prognozy, systemy ekspertowe bazujące na mechanizmach sztucznej inteligencji, metody analizy szeregów czasowych, teorię chaosu n dyskryminacja gpolega na znajdowaniu cech, które odróŝniają wskazaną klasę obiektów (target class) od innych klas (contrasting classes) n odkrywanie asocjacji gpolega na znajdowaniu związków pomiędzy występowaniem grup elementów w zadanych zbiorach danych n regresja 7

Przykłady metod drąŝenie danych n Drzewa decyzyjne n Klasyfikator najbliŝszego sąsiedztwa n Sieci neuronowe n Indukcja reguł n Analiza k-skupień 8 8

Czym drąŝenie danych nie jest n Data warehousing n SQL / Zapytania wprost / Raportowanie n Agenci programowi n Online Analytical Processing (OLAP) n Wizualizacja danych 9

OLAP (Online Analytical Processing) n Środowiska tego typu pozwalają na prostą analizę baz danych, w której moŝliwa jest wielowymiarowa obserwacja agregowanych wartości wybranych atrybutów jednej lub wielu połączonych relacji. n Metodologia OLAP zakłada, Ŝe uŝytkownik przygotowuje pewną hipotezę, której poprawność weryfikuje korzystając z narzędzi OLAP (np. Oracle Express Server). n Narzędzia OLAP pozwalają wyznaczać wartości pewnych parametrów (np. sum sprzedaŝy w przedziałach czasowych). Ich obserwacja ułatwia zauwaŝenie pewnych zaleŝności (np. sezonowego zwiększenia popytu). n Ograniczenia OLAP wynikają z koniecznością przygotowywania hipotez, które podlegają późniejszej weryfikacji. Stąd duŝą rolę odgrywa kreatywność i wyobraźnia eksperta. n W podejściu tym istnieje niebezpieczeństwo akceptacji hipotez fałszywych. 10

11 Modele stosowane w drąŝeniu danych n Przykładowe kryteria oceny modeli gdokładność gzrozumiałość n MoŜna je uszeregować od zrozumiałych do niezrozumiałych gdrzewa decyzyjne gindukcja reguł gmodele regresji gsieci neuronowe n Problemy zrozumiałe niezrozumiałe guczenie z nauczycielem i bez nauczyciela ggeneralizacja i przetrenowanie 11

Etapy procesy odkrywania wiedzy w bazach danych n Selekcja danych - wybór relacji i krotek, które będą eksplorowane, definicja sposobu łączenia relacji, n Transformacja danych - konwersja typów atrybutów, definicja atrybutów wywiedzionych, dyskretyzacja wartości ciągłych, n Eksploracja - ekstrakcja wiedzy z danych: generowanie reguł, drzew decyzyjnych, sieci neuronowych itp. n Interpretacja wyników - wybór najbardziej interesującej wiedzy, logiczna i graficzna wizualizacja wyników. 12

Przykładowy proces drąŝenia danych 13

14 Ocena modelu n Walidacja krzyŝowa gpodziel dane na N podzbiorów gzbuduj model na bazie N-1 podzbiorów (podzbiór niewykorzystany słuŝyć ma do testowania modelu) gpowtórz budowę i testowanie modelu N razy (budując model i testując go dla kolejnych zestawów składających się z N-1 podzbiorów i podzbioru testowego) 14

Inteligencja n Inteligencja (łac. intelligentia = pojętność) gzdolność rozumienia otaczających sytuacji i znajdowania na nie właściwych, celowych reakcji do zachowań inteligentnych naleŝy postrzeganie, rozpoznawanie, uczenie się, operowanie symbolami, posługiwanie się językiem, rozwiązywanie problemów, twórczość grodzaj szczególnej sprawności umysłowej, inteligencja płynna inteligencja skrystalizowana gnazwa warstwy społecznej Ŝyjącej z pracy twórczej umysłu, lub/i będąca głównym nośnikiem kultury narodowej. ginteligencja (gra towarzyska) ginteligencja sztuczna (ang. Artificial Intelligence) dział informatyki, którego przedmiotem jest badanie reguł rządzących tzw. inteligentnymi zachowaniami człowieka, tworzenie modeli formalnych tych zachowań i programów komputerowych symulujących te zachowania 15

Inteligencja n Typy inteligencji: g inteligencja kognitywna (abstrakcyjna) g inteligencja werbalna g inteligencja emocjonalna g inteligencja społeczna g inteligencja twórcza n Składowe ludzkiej inteligencji g logika g Przeczucia, system wierzeń, irracjonalność i przypadkowość. g SprzęŜenia zwrotne czyli zmysły. n Przetwarzanie z góry do dołu g Rozwiązując jakiś problem naleŝy zatem najpierw dokonać analizy całości, rozłoŝyć go na proste elementy i zbudować jego model. n Przetwarzanie z dołu do góry g Zaczyna się od podstaw problemu i stopniowo dochodzi do rozwiązania. g Nie jest to tylko techniką rozwiązywania problemów. Jest to istota funkcjonowania i zachowania Ŝywych organizmów. 16

Czy moŝna stworzyć Ŝycie na komputerze? n śycie posiadanie zdolności do rozmnaŝania, zróŝnicowanie międzyosobnicze, przekazywanie cech następnym generacjom drogą dziedziczenia. n śadna struktura, której intuicyjnie nie uznajemy za Ŝywą nie ma tych cech z wyjątkiem programów komputerowych. Programy genetyczne ewoluują w czasie, rozmnaŝają się, dziedziczą zachowanie i podlegają mutacjom. 17

Sztuczne Ŝycie n Istotą badań nad sztucznym Ŝyciem jest prostota. n Sztuczne Ŝycie rządzi się trzema zasadami: gprzetwarzanie następuje z dołu do góry glokalne oddziaływania prowadzą do globalnego (wytwórczego) zachowania gz prostoty powstaje złoŝoność. 18

Automat komórkowy Johna von Neumanna n Czy moŝna stworzyć pojedynczy automat naleŝący do klasy rozwiązującej wszystkie skończone problemy logiczne? tak, maszyna Turinga n Czy automat moŝe zbudować Taki sam automat? n Czy automat moŝe ewoluować do bardziej złoŝonego i stać się bardziej efektywny? n Von Neumann stworzył pięć modeli samopowielających się automatów przyjmujących jeden z 29 stanów zgodnie z regułami oraz ze stanem sąsiednich komórek automatu. n Idea ta została uproszczona przez Codda osiem stanów, przestrzeń pięciu komórek oraz symulacja dwustanowej przestrzeni von Neumanna n Model ten stał się podstawą gry Life Johna Conwaya 19

Gra Life Reguły przeŝycia: Stan komórki Sąsiednie Ŝywe komórki Wynik Ŝywa mniej niŝ dwie martwa Ŝywa dokładnie dwie Ŝywa Ŝywa dokładnie trzy Ŝywa Ŝywa więcej niŝ trzy martwa martwa dokładnie trzy Ŝywa 20