Eksploracja danych Jacek Rumiński

Wielkość: px
Rozpocząć pokaz od strony:

Download "Eksploracja danych Jacek Rumiński"

Transkrypt

1 Eksploracja danych Jacek Rumiński slajd 1 Kontakt: Katedra Inżynierii Biomedycznej, pk. 106, tel.: , fax: ,

2 Źródła, Internet, SQL/MM i inne standardy (dodatkowy zestaw slajdów) slajd 2

3 Problem potop danych Ilość generowanych i gromadzonych danych rośnie lawinowo (rozwój zarówno narzędzi wspomagających wytworzenie danych cyfrowych jak i technologii składowania danych) Tworzone zasoby (np. serwisy WWW) dostarczają licznych danych problemem jest jednak odkrycie wiedzy w nich ukrytych Możliwe rozwiązania: - hurtownie danych i OLAP, - odkrywanie wiedzy (reguł, klas, wzorców, regularności, ograniczeń, itp.) KDD Knowledge Discovery in Databases slajd 3

4 Eksploracja danych (Data mining) Eksploracja danych : Uzyskanie nietrywialnych, ukrytych, poprzednio nieznanych a potencjalnie użytecznych informacji lub reguł na podstawie dużych kolekcji danych. Eksploracją danych nie jest: Pozyskiwanie danych na podstawie przygotowanych (wzorców a priori) wyrażeń SQL, Pozyskiwanie danych z wykorzystaniem systemów eksperckich. Spotykane alternatywne lub zbliżone określenia dla eksploracji danych: data mining, Knowledge discovery(mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, etc. slajd 4

5 Zastosowania eksploracji danych Eksploracja danych stosowania jest głównie jako metodologia inteligentnego wspomagania podejmowania decyzji oraz formułowania wiedzy np.: klasyfikacja klientów firmy, klasyfikacja użytkowników serwisów WWW, formułowanie tez wiedzy ogólnej dotyczących np. istnienia nowych ciał niebieskich lub okoliczności występowania danej zmiany chorobowej, prognozowanie popytu i podaży, identyfikacja potrzeb klientów / użytkowników, wykrywanie zagrożeń i defraudacji (np. środków budżetowych), itd. slajd 5

6 Proces odkrywania wiedzy - diagram Eksploracja danych Podzbiór danych realizowanego zadania Reguły Przetwarzanie reguł Hurtownia Selekcja danych Czyszczenie danych Integracja danych slajd 6 Bazy danych

7 Insightful Miner slajd 7

8 SAS Enterprise Miner slajd 8

9 Proces odkrywania wiedzy - kroki Definicja celów oraz zakresu analiz, Selekcja danych z dostępnych źródeł (bazy dane, hurtownie) dla potrzeb utworzenia podzbioru danych związanego z określonym celem analiz, Czyszczenie danych i przetwarzanie wstępne (często niezwykle złożone), Redukcja i transformacja danych (pozostawienie tego co istotne we właściwej formie), Wybór i zastosowanie określonych metod i algorytmów eksploracji danych (np. klasyfikacji danych, określenie trendów, itd..) Przetwarzanie (np. usuwanie klas nieistotnych) i prezentacja odkrytych reguł, wzorców i informacji, Formułowanie i zastosowanie wiedzy (zdań szczegółowych ogólnych). slajd 9

10 EKSPLORACJA DANYCH - PLAN PRZETWARZANIE WSTEPNE - CZYSZCZENIE DANYCH, REDUKCJE, TRANSFORMACJE METODY (TECHNIKI EKSPLORACJI WIEDZY): A. Charakterystyki B. Reguły asocjacyjne C. Klasyfikacja D. Segmentacja E. Inne ZASTOSOWANIA slajd 10

11 Proces odkrywania wiedzy a BI Buisness Intelligence Wskaźnik zastosowania technologii w podejmowaniu decyzji Podjęcie decyzji Użytkownik końcowy Prezentacja danych Techniki wizualizacji Eksploracja danych Analityk (rynku, bankowy...) Analityk danych Analiza danych slajd 11 Hurtownie OLAP, MDA Źródła danych Dokumentacja papierowa, pliki, serwisy, OLTP, inne DBA

12 Eksploracja danych metodologia Charakterystki i uogólnienia Generalizacja, podsumowania, charakterystyka różnicowa, np. zdrowe i chore obszary tkanki, Określenie asocjacji (correlation and causality) Wielowymiarowe a jednowymiarowe asocjacje, wiek(x, ) ^ dochód(x, 2K..4K ) ^ kupuje(x, PC ) [support = 2%, confidence = 60%] zawiera(t, PC ) ^ zawiera(x, oprogramowanie ) [1%, 75%] slajd 12

13 slajd 13 Eksploracja danych metodologia Klasyfikacja i predykcja Znane wzorce/etykiety klas, Poszukiwanie są funkcje (modele, klasyfikatory) opisujące i rozdzielające poszczególne klasy dla potrzeb przyszłych analiz i predykcji (przewidzenia nieznanych lub brakujących wartości), Definiowane są przestrzenie cech, mierzone (wybierane) są wartości opisujące te cechy deskryptory, Przykłady: klasyfikacja studentów na podstawie ich ocen, klasyfikacja klientów na podstawie ich dochodów i rozchodów, Prezentacje: Reguły klasyfikacji, drzewa decyzyjne, sieci neuronowe, itd. Segmentacja/wydzielanie klastrów Nieznane wzorce/etykiety klas grupowanie danych w nowe klasy, identyfikacja klas, Analiza statystyczna danych minimalizacja wariancji rozkładu danych w obrębie klastra (klasy), Określenie minimalnej odległości (maksymalnego podobieństwa) zbioru deskryptorów danego elementu (obiektu) do średniego zbioru deskryptorów klastra.

14 Eksploracja danych metodologia Analiza ekstremów (odstępstw) Ektremum (odstępstwo, wyjątek): obiekt danych niezgodny z ogólną regułą danego zestawu, Wykorzystywana w detekcji błędów, defraudacji, niewłaściwych metod, itd. Analiza trendów Regresja, Identyfikacja parametrów modeli, Analiza okresowości danych, Analiza podobieństw danych, Inne slajd 14

15 Eksploracja danych przetwarzanie reguł Eksploracja danych może wygenerować tysiące reguł/wzorców, spośród których, tylko nieliczne są ważne dla danego celu i zakresu analiz. Dana reguła/wzorzec jest interesująca/ważna jeśli jest łatwo zrozumiała przez człowieka, powtarzalna dla nowych/testowych danych, jest potencjalnie użyteczna i nowa, a zarazem potwierdza hipotezy postawione przez użytkonika przed eksploracją danych - OPTYMALIZACJA Miary oceny reguł: Obiektywne: konstruowane na podstawie struktury i statystyki reguł, np. support, confidence, i inne. Subiektywne: konstruowane na podstawie oceny użytkownika (ekspert), np. unexpectedness, novelty, actionability, inne. slajd 15

16 Wstępne przetwarzanie danych - potrzeby Gromadzone dane są często - niekompletne: brakujące wartości atrybutów, brak istotnych dla analiz atrybutów, brak danych szczegółowych, -posiadają błędy lub wartości nieoczekiwane (odstępstwa), - niejednorodne: stosowanie różnych reguł dla składowania tych samych atrybutów, stosowanie różnych miar (jednostek), itd. Cel eksploracji danych wiedza zależy od jakości danych źródłowych. Złe dane - Nieprawdziwa wiedza błędne decyzje!!! slajd 16

17 Wstępne przetwarzanie danych - zadania Czyszczenie danych (Data cleaning) Uzupełnienie wartości brakujących, usuwanie szumu i błędów danych, identyfikacja i eliminacja odstępstw, usuwanie niejednorodności Integracja danych (Data integration) Integracja wielu baz danych, tabel, kolekcji, plików, kostek danych, itd. Transformacja danych (Data transformation) Normalizacja danych, agregacja Redukcja danych (Data reduction) Usuwanie redundancji, eliminacja danych nie wpływających na uzyskanie poprawnego wyniku Dyskretyzacja/kwantyzacja danych (Data discretization) Szczególna postać redukcji danych numerycznych slajd 17

18 Wstępne przetwarzanie danych - zadania slajd 18

19 Ignorowanie krotek, obiektów, wierszy,.., z atrybutami/polami o brakujących wartościach; operacja trudna gdy liczba takich elementów jest duża utrata danych; Ręczne uzupełnienie danych nudne, pracochłonne, często wręcz nierealne; Automatyczne uzupełnienie atrybutów/pól pustych wartościami domyślnymi, DC -> > Brakujące dane Automatyczne uzupełnienie atrybutów/pól pustych wartościami średnimi dla danego sąsiedztwa, klasy, itp.; Automatyczne uzupełnienie atrybutów/pól pustych wartościami najbardziej prawdopodobnymi zastosowanie reguły Bayesa lub drzew decyzyjnych. slajd 19

20 DC -> > Szumy, błędy i ekstrema Metody progowania/grupowania danych: 1. Sortowanie danych, podział na równe liczebnie grupy, 2. Wygładzenie wartości poprzez uśrednienie wartości w obrębie grupy, wyznaczenie mediany grupy, wygładzenie przez ekstrema grupy, itp. Metody segmentacji / wydzielania klastrów Detekcja i usunięcie ekstremów (odstępstw). Metody półautomatyczne Automatyczna detekcja błędu/ektremum; ręczna korekta wartości. Metody wyznaczania trendu - regresja Wygładzenie poprzez zastosowanie wyznaczonej funkcji opisującej rozkład wartości. slajd 20

21 DC -> > Szumy, błędy i ekstrema -> > wygładzanie 1. Posortowanie danych (np. cena towaru w PLN) 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 Podział na równe grupy: - G1: 4, 8, 9, 15 - G2: 21, 21, 24, 25 - G3: 26, 28, 29, Wygładzenie przez średnią: - G1: 9, 9, 9, 9 - G2: 23, 23, 23, 23 - G3: 29, 29, 29, Wygładzenie przez ekstrema: - G1: 4, 4, 4, 15 - G2: 21, 21, 25, 25 - G3: 26, 26, 26, 34 slajd 21

22 DC -> > Szumy, błędy i ekstrema -> klastry K1 K2 µ2 µ1 µ3 K3 rozrzut/odstępstwa/ekstrema slajd 22

23 DC -> > Szumy, błędy i ekstrema -> > regresja y Y1 Y1 y = x + 1 X1 x slajd 23

24 Integracja danych - problemy Integracja danych: Dane z różnych źródeł integrowane są w jeden spójny zasób, Integracja schematów: Integracja metadanych pochodzących z różnych źródeł, Identyfikacja znaczenia atrybutów (pól) np., A.cust-id B.cust- # Wykrywanie i eliminacja konfliktów Ten sam obiekt opisywany jest przez różne wartości atrybutów pochodzących z różnych zestawów danych, np. problem stosowanych miar i jednostek (odległość w km czy w milach?). slajd 24

25 Integracja danych redundancja danych Redundancja pojawia się przy integracji danych z wielu źródeł charakteryzujących się odmiennymi schematami: Różne nazwy dla tych samych atrybutów, Atrybuty wywiedzione z atrybutów innych relacji, obiektów, kolekcji (np. suma). Klasyczne formy eliminacji redundancji wykorzystują metody korelacyjne Eliminacja redundancji w sposób istotny wpływa na szybkość działania stosowanych metod eksploracji danych. slajd 25

26 Transformacja danych Eliminacja szumu, uśrednienie, wygładzenie, Agregacje, Generalizacje: concept hierarchy climbing Normalizacje / skalowanie: Skalowanie liniowe min-max, Normalizacja z-score, Skalowanie przez stałą. Konstrukcja nowych atrybutów slajd 26

27 Transformacja danych - normalizacja Skalowanie min-max v = v min maxa min A ' ( _ A _ A) + Normalizacja z-score A new max v v' = µ A δ A new min new_ min A slajd 27 Normalizacja przez stałą µ A v ' = v K np., v'= v 10 Gdzie: - wartość średnia A, δ A - odchylenie standardowe A, K stała, j najmniejsza liczba całkowita, taka że Max( v )<1 j

28 Transformacja danych nowe atrybuty slajd 28

29 Redukcja danych - problemy Hurtownie danych mogą zawierać terabajty wielowymiarowych danych; ich eksploracja może trwać zbyt długo dla potrzeb danego procesu decyzyjnego. Redukcja danych Cel: Generacja mniejszego zbioru danych niż oryginalny dającego te same lub bardzo podobne rezultatu w procesie eksploracji danych Techniki redukcji danych Agregacja Data cube (poziomy agregacji kostki, wymiary kostki) Redukcja wymiaru danych Zmiana reprezentacji danych Dyskretyzacja / generacja hierarchii slajd 29

30 Redukcja danych redukcja wymiaru danych Selekcja cech : Selekcja minimalnego zestawu cech, dla których rozkład prawdopodobieństwa danych klas jest najbardziej podobny do analogicznego rozkładu przy zastosowaniu wszytskich cech, Redukcja liczby wzroców w metodach dopasowania wzorca (pattern matching). Metody heurystyczne: Selekcja krokowa (najlepsza cecha pozostaje), Krokowa eliminacja wsteczna (najgorsza cecha jest eliminowana), Metody łączone, Drzewa decyzyjne. slajd 30

31 Redukcja danych drzewo decyzyjne (indukcja) Początkowy zbiór atrybutów: {A1, A2, A3, A4, A5, A6} A4? A1? A6? Klasa 1 Klasa 2 Klasa 1 Klasa 2 > Końcowy zbiór atrybutów: {A1, A4, A6} slajd 31

32 Redukcja danych kompresja danych Kompresja stratna odtwarzane po kompresji dane stanowią aproksymację danych oryginalnych. W procesie kompresji pozostają elementy najczęściej występujące lub najbardziej istotne ze względu na zadany parametr (np. jakość obrazu). Znane algorytmy kompresji stosujące transformację kosinusów lub falkową wykorzystują dedykowane metody kwantyzacji współczynników transformat. Kompresja bezstratna odtwarzane dane to dane oryginalne Dane oryginalne Przybliżenie danych oryginalnych bezstratna stratna Dane po kompresji slajd 32

33 Redukcja danych PCA Principal Component Analysis Mając N wektorów danych z k-wymiarowej przestrzeni, znaleźć takie c (c<=k) wektorów ortogonalnych, które dobrze (tzn. z dopuszczalnym błędem) reprezentują dane Każdy wektor danych jest liniową kombinacją c wektorów komponentów głównych Transformacja ta stosowana jest dla danych liczbowych Y2 X2 Y1 X1 slajd 33

34 Redukcja danych metody parametryczne Przyjmowany jest model rozkładu wartości atrybutu, np. liniowy, wykładniczy, Parametry modelu są dopasowywane tak, aby odpowiadały danym rzeczywistym, Składowany jest zatem identyfikator typu modelu oraz jego parametry, Przykłady: Regresja liniowa: Y = a X+ b Dwa parametry a i b wytyczają linię prostą. Zatem dla każdego X znane jest Y. Dopasowanie metoda najmniejszych kwadratów z zastosowaniem znanych zestawów danych Y1, Y2,, X1, X2,. Regresja odcinkami liniowa: Y = b0 + b1 X1 + b2 X2. Funkcje nieliniowe: Y=a0 exp(-b0 t)+a1 exp(-b1 t) itd. PRZYKŁADY y y = x + 1 x slajd 34

35 Redukcja danych metody nieparametryczne Nie zakładają modeli, Najczęściej stosowane techniki to: progowanie histogramu, wydzielanie klastrów, próbkowanie HISTOGRAM Grupopowanie elementów histogramu w paczki (granice wyznaczane przez wartości progowe: dolną i górną). Nowa wartość zgrupowanego elementu histogramu to wartość średnia składowych. slajd 35

36 Redukcja danych metody nieparametryczne KLASTRY Klastry stanowią grupy danych w przestrzeni cech. Metody wyznaczania klastrów stanowią jedną z najbardziej popularnych technik stosowanych w eksploracji danych (opis dalej). Każdy klaster może być reprezentowany przez liczbę parametrów (np. wartość średnia), znacznie mniejszą niż liczba jego składowych. Możliwe jest zbudowanie hierarchii klastrów, dzięki czemu możliwe są różne systemy indeksowania. K2 K1 µ2 slajd 36 µ1 µ3 K3

37 Redukcja danych metody nieparametryczne PRÓBKOWANIE Próbkowanie dziedziny danych w celu wygenerowania reprezentacji danych. Problem doboru metody próbkowania losowo, zgodnie z modelem, np. Co drugi element? Optymalny schemat próbkowania. slajd 37 Dane oryginalne Dane po redukcji

38 Redukcja danych dyskretyzacja i kategoryzacja Dyskretyzacja zmniejszenie liczby danych poprzez podział ciągłego zakresu wartości danego atrybutu na skończoną liczbę przedziałów. Każdy przedział może być reprezentowany przez etykiety składowane jako reprezentacja wartości danych. Kategoryzacja zmniejszenie liczby danych przez kategoryzację typu danych argumentu, tj. przejście od wartości bezwzględnej (np. 23 lata) do etykiety zakresu wartości (np. młody ). Kateogryzacja i związny z nią typ danych (categorical) stanowią podstawową operację przygotowania danych dla potrzeb klasyfikacji danych w DM. Stosowane techniki dyskretyzacji i kategoryzacji, to oprócz wymienionych wcześniej, te stosujące progowanie i segmentację danych. slajd 38

39 Redukcja danych dyskretyzacja i kategoryzacja DYSKRETYZACJA PRZEZ MINIMALIZACJĘ ENTROPII Dzieląc zbiór danych D na dwie klasy D1 i D2 zgodnie z obraną wartością progową T, to entropia podziału dana jest wzorem: L( D1) L( D2) H ( D, T ) = H ( D1) + H ( D2) L( D) L( D) Gdzie: H(.) entropia, L(a) liczba elementów a; Dla danej funkcji gęstości prawdopodobieństwa (estymacja przez histogram) p(g) (g=0...k-1), entropię można obliczyć jako: H = K 1 g= 0 p( g) ln( p( g)) T, dla którego H(D,T) jest minimalne jest wybierane jako optymlny prób podziału (binaryzacja). Proces może przebiegać rekurencyjnie aż do spełnienia zadanego kryterium, np. H ( D) H ( D, T ) > ε slajd 39

40 -Metoda modeli Redukcja danych dyskretyzacja i kategoryzacja INNE METODY PROGOWANIA -Metoda Otsu slajd 40 -inne

41 Proces eksploracji danych -Podstawowe zagadnienia -Definicja zadania slajd 41

42 Proces eksploracji danych - podstawowe zagadnienia -Proces eksploracji danych zakłada wyszukiwanie pewnych ukrytych i nieznanych wzorców. Automatyczna realizacja procesu może doprowadzić do bardzo dużej liczby uzyskanych wzorców, często nie istotnych dla rozpatrywanego zadania. -Proces eksploracji danych musi być zatem kontrolowany przez użytkownika. Najczęstsza obecnie realizacja procesu to interaktywne określanie parametrów na każdym etapie (w każdym kroku) eksploracji danych. Realizacja interfejsu obejmuje często dedykowane, graficzne diagramy przepływu działań, bądź ich hierarchiczne uszeregowanie. Inne rozwiązania obejmować mogą opracowanie dedykowanych języków zapytań. slajd 42

43 Proces eksploracji danych zadanie eksploracji Określenie danych związanych z zadaniem Określenie typu poszukiwanej wiedzy Zdefiniowanie posiadanej wiedzy ODKRYWANIE WIEDZY (opracowanie, testowanie i wykorzystanie modelu) Miary i ocena wiedzy odkrytej Wizualizacja odkrytej wiedzy slajd 43

44 Proces eksploracji danych dane Baza danych lub hurtownia Tabela bazy danych, kolekcja, kostka danych Warunki wyboru danych Istotne atrybuty, pola, wymiary Kryteria grupowania danych slajd 44

45 Proces eksploracji danych typ wiedzy Charakterystyki Asocjacje (reguły asocjacyjne) Klasyfikacja Predykcja Segmentacja (klastry) Analiza ekstremów Sekwencje inne slajd 45

46 Proces eksploracji danych posiadana wiedza Hierarchia wiedzy Hierarchia kategorii ogólnych np. ULICA <- MIASTO <- POWIAT <- WOJEWÓDZTWO <- KRAJ Hierarchia kategorii grupowych np. {20-39} = młody, {70-100} = emeryt Hierarchia kategorii operacyjnych np. Adres LOGIN <- WYDZIAŁ <- UNIWERSYTET <- KRAJ Hierarchia reguł np. ZYSK_MIN (X) <= CENA(X, P1) AND KOSZT (X, P2) AND (P1 - P2) < 500PLN slajd 46

47 Proces eksploracji danych miary i ocena Złożoność np. rozmiar reguły asocjacyjnej, wielkość drzewa decyzyjnego, itp., Pewność np. ufność reguły (confidence): P(A B) = n(a AND B)/ n (B), dokładność i błędy klasyfikacji, Użyteczność np. wsparcie reguły/wzorca (support), przekroczenie progu akceptowalności, itp., Nowość wiedza nowa, nieznana, zaskakująca, itp. slajd 47

48 Proces eksploracji danych miary i ocena Klienci kupują i chleb i masło Klienci kupują masło Wsparcie wzorca (support), s, prawdopodobieństwo, że transakcja zawiera {X, Y, Z} Klienci kupują chleb Ufność wzorca (confidence), c, prawdopodobieństwo warunkowe, że transakcja zawierająca {X,Y} zawiera również Z Dla jakich powiązań s i c >=50%? ID transakcji Produkt kupowany 2000 A,B,C 1000 A,C 4000 A,D 5000 B,E,F slajd 48 A C (50%, 66.6%) C A (50%, 100%) Par {A,C} jest 2/4 czyli s=0.5. {A} występuje 3 razy, ale tylko w 2 przypadkach jest i {C} czyli c1=2/3. {C} występuje 2 razy i wówczas występuje również {A}, czyli c2=2/2=1.

49 Proces eksploracji danych miary i ocena lub Lift = correlation, interest slajd 49

50 Proces eksploracji danych miary i ocena Korelacja (interest, correlation, lift) Support{ X Y} Support{ X} Support{ Y} Pozycje X i Y nie są skorelowane jeśli wartość miary jest mniejsza niż 1, są skorelowane w przeciwnym przypadku X Y Z Zbiór Wsparcie Korelacja X,Y 25% 2 X,Z 37,50% 0,9 Y,Z 12,50% 0,57 slajd 50

51 Proces eksploracji danych wizualizacja Wizualizacja danych źródłowych Wizualizacja procesu eksploracji danych Wizualizacja wiedzy: reguły, drzewa, itd., zgodnie z wymienionymi wcześniej rodzajami odkrywanej wiedzy. slajd 51

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Data Mining Kopalnie Wiedzy

Data Mining Kopalnie Wiedzy Data Mining Kopalnie Wiedzy Janusz z Będzina Instytut Informatyki i Nauki o Materiałach Sosnowiec, 30 listopada 2006 Kopalnie złota XIX Wiek. Odkrycie pokładów złota spowodowało napływ poszukiwaczy. Przeczesywali

Bardziej szczegółowo

OLAP i hurtownie danych c.d.

OLAP i hurtownie danych c.d. OLAP i hurtownie danych c.d. Przypomnienie OLAP -narzędzia analizy danych Hurtownie danych -duże bazy danych zorientowane tematycznie, nieulotne, zmienne w czasie, wspierjące procesy podejmowania decyzji

Bardziej szczegółowo

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Wprowadzenie do technologii informacyjnej.

Wprowadzenie do technologii informacyjnej. Wprowadzenie do technologii informacyjnej. Data mining i jego biznesowe zastosowania dr Tomasz Jach Definicje Eksploracja danych polega na torturowaniu danych tak długo, aż zaczną zeznawać. Eksploracja

Bardziej szczegółowo

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Wprowadzenie do technologii Business Intelligence i hurtowni danych Wprowadzenie do technologii Business Intelligence i hurtowni danych 1 Plan rozdziału 2 Wprowadzenie do Business Intelligence Hurtownie danych Produkty Oracle dla Business Intelligence Business Intelligence

Bardziej szczegółowo

Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU

Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Hurtownie danych Przetwarzanie zapytań. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Magazyny danych operacyjnych, źródła Centralna hurtownia danych Hurtownie

Bardziej szczegółowo

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Usługi analityczne budowa kostki analitycznej Część pierwsza. Usługi analityczne budowa kostki analitycznej Część pierwsza. Wprowadzenie W wielu dziedzinach działalności człowieka analiza zebranych danych jest jednym z najważniejszych mechanizmów podejmowania decyzji.

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach. http://zajecia.jakubw.

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach. http://zajecia.jakubw. Hurtownie danych Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach. http://zajecia.jakubw.pl/hur UZASADNIENIE BIZNESOWE Po co nam hurtownia danych? Jakie mogą

Bardziej szczegółowo

Ewelina Dziura Krzysztof Maryański

Ewelina Dziura Krzysztof Maryański Ewelina Dziura Krzysztof Maryański 1. Wstęp - eksploracja danych 2. Proces Eksploracji danych 3. Reguły asocjacyjne budowa, zastosowanie, pozyskiwanie 4. Algorytm Apriori i jego modyfikacje 5. Przykład

Bardziej szczegółowo

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2012 Zagadnienia do omówienia 1. Miejsce i rola w firmie 2. Przegląd architektury

Bardziej szczegółowo

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2007 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę

Bardziej szczegółowo

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego http://www.jakubw.pl/zajecia/hur/bi.pdf http://www.jakubw.pl/zajecia/hur/dw.pdf http://www.jakubw.pl/zajecia/hur/dm.pdf http://www.jakubw.pl/zajecia/hur/

Bardziej szczegółowo

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2012 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Analiza metod wykrywania przekazów steganograficznych. Magdalena Pejas Wydział EiTI PW magdap7@gazeta.pl

Analiza metod wykrywania przekazów steganograficznych. Magdalena Pejas Wydział EiTI PW magdap7@gazeta.pl Analiza metod wykrywania przekazów steganograficznych Magdalena Pejas Wydział EiTI PW magdap7@gazeta.pl Plan prezentacji Wprowadzenie Cel pracy Tezy pracy Koncepcja systemu Typy i wyniki testów Optymalizacja

Bardziej szczegółowo

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie SZKOLENIA SAS ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie DANIEL KUBIK ŁUKASZ LESZEWSKI ROLE ROLE UŻYTKOWNIKÓW MODUŁU

Bardziej szczegółowo

dr inż. Jacek Naruniec email: J.Naruniec@ire.pw.edu.pl

dr inż. Jacek Naruniec email: J.Naruniec@ire.pw.edu.pl dr inż. Jacek Naruniec email: J.Naruniec@ire.pw.edu.pl Coraz większa ilość danych obrazowych How much information, University of California Berkeley, 2002: przyrost zdjęć rentgenowskich to 17,2 PB rocznie

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Transformacja wiedzy w budowie i eksploatacji maszyn

Transformacja wiedzy w budowie i eksploatacji maszyn Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces

Bardziej szczegółowo

Eksploracja danych - wykład II

Eksploracja danych - wykład II - wykład 1/29 wykład - wykład Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Październik 2015 - wykład 2/29 W kontekście odkrywania wiedzy wykład - wykład 3/29 CRISP-DM - standaryzacja

Bardziej szczegółowo

w ekonomii, finansach i towaroznawstwie

w ekonomii, finansach i towaroznawstwie w ekonomii, finansach i towaroznawstwie spotykane określenia: zgłębianie danych, eksploracyjna analiza danych, przekopywanie danych, męczenie danych proces wykrywania zależności w zbiorach danych poprzez

Bardziej szczegółowo

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Plan wykładów Wprowadzenie - integracja

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

Hurtownie danych - przegląd technologii

Hurtownie danych - przegląd technologii Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Plan wykład adów Wprowadzenie - integracja

Bardziej szczegółowo

Hurtownia danych. Załącznik Nr 1 do SIWZ. Opis przedmiotu zamówienia. Lp. FUNKCJONALNOŚĆ/PARAMETRY WYMAGANE

Hurtownia danych. Załącznik Nr 1 do SIWZ. Opis przedmiotu zamówienia. Lp. FUNKCJONALNOŚĆ/PARAMETRY WYMAGANE Załącznik Nr 1 do SIWZ Opis przedmiotu zamówienia Lp. FUNKCJONALNOŚĆ/PARAMETRY WYMAGANE Hurtownia danych 1. Wielowymiarowa hurtownia danych oparta o model konstelacji faktów. 2. Brak ograniczenia na liczbę

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO Eksploracja danych a serwisy internetowe Przemysław KAZIENKO Wydział Informatyki i Zarządzania Politechnika Wrocławska kazienko@pwr.wroc.pl Dlaczego eksploracja danych w serwisach internetowych? Kanały

Bardziej szczegółowo

Plan prezentacji 0 Wprowadzenie 0 Zastosowania 0 Przykładowe metody 0 Zagadnienia poboczne 0 Przyszłość 0 Podsumowanie 7 Jak powstaje wiedza? Dane Informacje Wiedza Zrozumienie 8 Przykład Teleskop Hubble

Bardziej szczegółowo

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Metadane. Data Maining. - wykład VII Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Plan 1. Metadane 2. Jakość danych 3. Eksploracja danych (Data mining) 4. Sprawy róŝne

Bardziej szczegółowo

Relacyjny model baz danych, model związków encji, normalizacje

Relacyjny model baz danych, model związków encji, normalizacje Relacyjny model baz danych, model związków encji, normalizacje Wyklad 3 mgr inż. Maciej Lasota mgr inż. Karol Wieczorek Politechnika Świętokrzyska Katedra Informatyki Kielce, 2009 Definicje Operacje na

Bardziej szczegółowo

Hurtownie danych. Wstęp. Architektura hurtowni danych. http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH

Hurtownie danych. Wstęp. Architektura hurtowni danych. http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH Wstęp. Architektura hurtowni. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH B. Inmon, 1996: Hurtownia to zbiór zintegrowanych, nieulotnych, ukierunkowanych

Bardziej szczegółowo

Studia podyplomowe w zakresie przetwarzanie, zarządzania i statystycznej analizy danych

Studia podyplomowe w zakresie przetwarzanie, zarządzania i statystycznej analizy danych Studia podyplomowe w zakresie przetwarzanie, zarządzania i statystycznej analizy danych PRZEDMIOT (liczba godzin konwersatoriów/ćwiczeń) Statystyka opisowa z elementami analizy regresji (4/19) Wnioskowanie

Bardziej szczegółowo

Kurs Chemometrii Poznań 28 listopad 2006

Kurs Chemometrii Poznań 28 listopad 2006 Komisja Nauk Chemicznych Polskiej Akademii Nauk Oddział w Poznaniu Wydział Technologii Chemicznej Politechniki Poznańskiej w Poznaniu GlaxoSmithKline Pharmaceuticals S.A. w Poznaniu Stowarzyszenie ISPE

Bardziej szczegółowo

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2008 Zagadnienia do omówienia 1. 2. Przegląd architektury HD 3. Warsztaty

Bardziej szczegółowo

Sztuczna Inteligencja Projekt

Sztuczna Inteligencja Projekt Sztuczna Inteligencja Projekt Temat: Algorytm LEM2 Liczba osób realizujących projekt: 2 1. Zaimplementować algorytm LEM 2. 2. Zaimplementować klasyfikator Classif ier. 3. Za pomocą algorytmu LEM 2 wygenerować

Bardziej szczegółowo

Hurtownie danych a transakcyjne bazy danych

Hurtownie danych a transakcyjne bazy danych Hurtownie danych a transakcyjne bazy danych Materiały źródłowe do wykładu: [1] Jerzy Surma, Business Intelligence. Systemy wspomagania decyzji, Wydawnictwo Naukowe PWN, Warszawa 2009 [2] Arkadiusz Januszewski,

Bardziej szczegółowo

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Część I Istota analizy biznesowej a Analysis Services

Część I Istota analizy biznesowej a Analysis Services Spis treści Część I Istota analizy biznesowej a Analysis Services 1 Analiza biznesowa: podstawy analizy danych... 3 Wprowadzenie do analizy biznesowej... 3 Wielowymiarowa analiza danych... 5 Atrybuty w

Bardziej szczegółowo

S t a t y s t y k a, część 3. Michał Żmihorski

S t a t y s t y k a, część 3. Michał Żmihorski S t a t y s t y k a, część 3 Michał Żmihorski Porównanie średnich -test T Założenia: Zmienne ciągłe (masa, temperatura) Dwie grupy (populacje) Rozkład normalny* Równe wariancje (homoscedasticity) w grupach

Bardziej szczegółowo

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki

Bardziej szczegółowo

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia ZP/ITS/11/2012 Załącznik nr 1a do SIWZ ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych

Bardziej szczegółowo

Opis spełnienia wymagań (PSBD)

Opis spełnienia wymagań (PSBD) Numer sprawy: DPZ/4/15 Nr arch. DPZ/087/059-16/15 1. Zakres przedmiotu zamówienia: Opis spełnienia wymagań (PSBD) Załącznik nr 1d do formularza ofertowego Wykonanie dzieła polegającego na dostawie, kompleksowym

Bardziej szczegółowo

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław

Bardziej szczegółowo

Podstawy programowania III WYKŁAD 4

Podstawy programowania III WYKŁAD 4 Podstawy programowania III WYKŁAD 4 Jan Kazimirski 1 Podstawy UML-a 2 UML UML Unified Modeling Language formalny język modelowania systemu informatycznego. Aktualna wersja 2.3 Stosuje paradygmat obiektowy.

Bardziej szczegółowo

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl Komputerowe Systemy Przemysłowe: Modelowanie - UML Arkadiusz Banasik arkadiusz.banasik@polsl.pl Plan prezentacji Wprowadzenie UML Diagram przypadków użycia Diagram klas Podsumowanie Wprowadzenie Języki

Bardziej szczegółowo

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem

Bardziej szczegółowo

Algorytmy genetyczne w interpolacji wielomianowej

Algorytmy genetyczne w interpolacji wielomianowej Algorytmy genetyczne w interpolacji wielomianowej (seminarium robocze) Seminarium Metod Inteligencji Obliczeniowej Warszawa 22 II 2006 mgr inż. Marcin Borkowski Plan: Przypomnienie algorytmu niszowego

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Wykład XII. optymalizacja w relacyjnych bazach danych

Wykład XII. optymalizacja w relacyjnych bazach danych Optymalizacja wyznaczenie spośród dopuszczalnych rozwiązań danego problemu, rozwiązania najlepszego ze względu na przyjęte kryterium jakości ( np. koszt, zysk, niezawodność ) optymalizacja w relacyjnych

Bardziej szczegółowo

Grupy pytań na egzamin inżynierski na kierunku Informatyka

Grupy pytań na egzamin inżynierski na kierunku Informatyka Grupy pytań na egzamin inżynierski na kierunku Informatyka Dla studentów studiów dziennych Należy wybrać dwie grupy pytań. Na egzaminie zadane zostaną 3 pytania, każde z innego przedmiotu, pochodzącego

Bardziej szczegółowo

CLUSTERING. Metody grupowania danych

CLUSTERING. Metody grupowania danych CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means

Bardziej szczegółowo

Analiza Statystyczna

Analiza Statystyczna Lekcja 5. Strona 1 z 12 Analiza Statystyczna Do analizy statystycznej wykorzystać można wbudowany w MS Excel pakiet Analysis Toolpak. Jest on instalowany w programie Excel jako pakiet dodatkowy. Oznacza

Bardziej szczegółowo

Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania

Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania Przedmiot: Bazy danych Rok: III Semestr: V Rodzaj zajęć i liczba godzin: Studia stacjonarne Studia niestacjonarne Wykład 30 21 Ćwiczenia Laboratorium 30 21 Projekt Liczba punktów ECTS: 4 C1 C2 C3 Cel przedmiotu

Bardziej szczegółowo

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. http://zajecia.jakubw.pl/hur INTEGRACJA DANYCH ETL

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. http://zajecia.jakubw.pl/hur INTEGRACJA DANYCH ETL Hurtownie danych Ładowanie, integracja i aktualizacja danych. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur INTEGRACJA DANYCH Źródła danych ETL Centralna hurtownia danych Do hurtowni

Bardziej szczegółowo

Przykładowa analiza danych

Przykładowa analiza danych Przykładowa analiza danych W analizie wykorzystano dane pochodzące z publicznego repozytorium ArrayExpress udostępnionego na stronach Europejskiego Instytutu Bioinformatyki (http://www.ebi.ac.uk/). Zbiór

Bardziej szczegółowo

ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak

ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak Tytuł: Autor: ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak Wstęp Zaawansowane metody analiz statystycznych przenoszą analizy statystyczne na kolejny wyższy poziom. Określenie tego wyższego

Bardziej szczegółowo

Pojęcie systemu informacyjnego i informatycznego

Pojęcie systemu informacyjnego i informatycznego BAZY DANYCH Pojęcie systemu informacyjnego i informatycznego DANE wszelkie liczby, fakty, pojęcia zarejestrowane w celu uzyskania wiedzy o realnym świecie. INFORMACJA - znaczenie przypisywane danym. SYSTEM

Bardziej szczegółowo

Co to jest Business Intelligence?

Co to jest Business Intelligence? Cykl: Cykl: Czwartki z Business Intelligence Sesja: Co Co to jest Business Intelligence? Bartłomiej Graczyk 2010-05-06 1 Prelegenci cyklu... mariusz@ssas.pl lukasz@ssas.pl grzegorz@ssas.pl bartek@ssas.pl

Bardziej szczegółowo

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych Plan wykładu Bazy Wykład 14: Hurtownie Bazy operacyjne i analityczne Architektura hurtowni Projektowanie hurtowni Małgorzata Krętowska, Agnieszka Oniśko Wydział Informatyki PB Bazy (studia dzienne) 2 Rodzaje

Bardziej szczegółowo

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services Spis treści Wstęp... ix Odkąd najlepiej rozpocząć lekturę?... ix Informacja dotycząca towarzyszącej ksiąŝce płyty CD-ROM... xi Wymagania systemowe... xi Instalowanie i uŝywanie plików przykładowych...

Bardziej szczegółowo

Model procesu dydaktycznego

Model procesu dydaktycznego Model procesu dydaktycznego w zakresie Business Intelligence Zenon Gniazdowski 1,2), Andrzej Ptasznik 1) 1) Warszawska Wyższa Szkoła Informatyki, ul. Lewartowskiego 17, Warszawa 2) Instytut Technologii

Bardziej szczegółowo

Zasady organizacji projektów informatycznych

Zasady organizacji projektów informatycznych Zasady organizacji projektów informatycznych Systemy informatyczne w zarządzaniu dr hab. inż. Joanna Józefowska, prof. PP Plan Definicja projektu informatycznego Fazy realizacji projektów informatycznych

Bardziej szczegółowo

Analiza Współzależności

Analiza Współzależności Statystyka Opisowa z Demografią oraz Biostatystyka Analiza Współzależności Aleksander Denisiuk denisjuk@euh-e.edu.pl Elblaska Uczelnia Humanistyczno-Ekonomiczna ul. Lotnicza 2 82-300 Elblag oraz Biostatystyka

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

Implementacja metod eksploracji danych - Oracle Data Mining

Implementacja metod eksploracji danych - Oracle Data Mining Implementacja metod eksploracji danych - Oracle Data Mining 395 Plan rozdziału 396 Wprowadzenie do eksploracji danych Architektura Oracle Data Mining Możliwości Oracle Data Mining Etapy procesu eksploracji

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Zygmunt Wróbel i Robert Koprowski. Praktyka przetwarzania obrazów w programie Matlab

Zygmunt Wróbel i Robert Koprowski. Praktyka przetwarzania obrazów w programie Matlab Zygmunt Wróbel i Robert Koprowski Praktyka przetwarzania obrazów w programie Matlab EXIT 2004 Wstęp 7 CZĘŚĆ I 9 OBRAZ ORAZ JEGO DYSKRETNA STRUKTURA 9 1. Obraz w programie Matlab 11 1.1. Reprezentacja obrazu

Bardziej szczegółowo

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski Sterowanie procesem i jego zdolność Zbigniew Wiśniewski Wybór cech do kart kontrolnych Zaleca się aby w pierwszej kolejności były brane pod uwagę cechy dotyczące funkcjonowania wyrobu lub świadczenia usługi

Bardziej szczegółowo

Bazy danych. wprowadzenie teoretyczne. Piotr Prekurat 1

Bazy danych. wprowadzenie teoretyczne. Piotr Prekurat 1 Bazy danych wprowadzenie teoretyczne Piotr Prekurat 1 Baza danych Jest to zbiór danych lub jakichkolwiek innych materiałów i elementów zgromadzonych według określonej systematyki lub metody. Zatem jest

Bardziej szczegółowo

Laboratorium 10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization.

Laboratorium 10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization. Laboratorium 10 Odkrywanie cech i algorytm Non-Negative Matrix Factorization. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie

Bardziej szczegółowo

Klasyfikacja metodą Bayesa

Klasyfikacja metodą Bayesa Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo

Bardziej szczegółowo

SYSTEMY KLASY BI PLATFORMĄ EFEKTYWNEGO WSPÓŁDZIAŁANIA WSPÓŁCZESNYCH ORGANIZACJI. Piotr Zaskórski

SYSTEMY KLASY BI PLATFORMĄ EFEKTYWNEGO WSPÓŁDZIAŁANIA WSPÓŁCZESNYCH ORGANIZACJI. Piotr Zaskórski SYSTEMY KLASY BI PLATFORMĄ EFEKTYWNEGO WSPÓŁDZIAŁANIA WSPÓŁCZESNYCH ORGANIZACJI Piotr Zaskórski 1. MIEJSCE I ROLA SYSTEMÓW KLASY BI W KSZTAŁTOWANIU STRUKTUR I STRATEGII ZARZĄDZANIA WSPÓŁCZESNYCH ORGANIZACJI.

Bardziej szczegółowo

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania 2/32 Cel analizy Celem fazy określania wymagań jest udzielenie odpowiedzi na pytanie:

Bardziej szczegółowo

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining 0LNRáDM0RU]\ Marek Wojciechowski Instytut Informatyki PP Eksploracja danych 2GNU\ZDQLHZ]RUFyZZGX*\FK

Bardziej szczegółowo

Modelowanie danych, projektowanie systemu informatycznego

Modelowanie danych, projektowanie systemu informatycznego Modelowanie danych, projektowanie systemu informatycznego Modelowanie odwzorowanie rzeczywistych obiektów świata rzeczywistego w systemie informatycznym Modele - konceptualne reprezentacja obiektów w uniwersalnym

Bardziej szczegółowo

PREZENTACJA FUNKCJONALNA SYSTEMU PROPHIX

PREZENTACJA FUNKCJONALNA SYSTEMU PROPHIX PREZENTACJA FUNKCJONALNA SYSTEMU PROPHIX Architektura i struktura funkcjonalna systemu PROPHIX PROPHIX Corporate Performance Management (Zarządzanie Wydajnością Firmy) System do samodzielnego planowania,

Bardziej szczegółowo

Metody scoringowe w regresji logistycznej

Metody scoringowe w regresji logistycznej Metody scoringowe w regresji logistycznej Andrzej Surma Wydział Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego 19 listopada 2009 AS (MIMUW) Metody scoringowe w regresji logistycznej 19

Bardziej szczegółowo

Definicja bazy danych TECHNOLOGIE BAZ DANYCH. System zarządzania bazą danych (SZBD) Oczekiwania wobec SZBD. Oczekiwania wobec SZBD c.d.

Definicja bazy danych TECHNOLOGIE BAZ DANYCH. System zarządzania bazą danych (SZBD) Oczekiwania wobec SZBD. Oczekiwania wobec SZBD c.d. TECHNOLOGIE BAZ DANYCH WYKŁAD 1 Wprowadzenie do baz danych. Normalizacja. (Wybrane materiały) Dr inż. E. Busłowska Definicja bazy danych Uporządkowany zbiór informacji, posiadający własną strukturę i wartość.

Bardziej szczegółowo

Odkrywanie asocjacji

Odkrywanie asocjacji Odkrywanie asocjacji Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Odkrywanie asocjacji wykład 1 Wykład jest poświęcony wprowadzeniu i zaznajomieniu się z problemem odkrywania reguł asocjacyjnych.

Bardziej szczegółowo

KARTA INFORMACYJNA PRZEDMIOTU

KARTA INFORMACYJNA PRZEDMIOTU Uniwersytet Rzeszowski WYDZIAŁ KIERUNEK Matematyczno-Przyrodniczy Fizyka techniczna SPECJALNOŚĆ RODZAJ STUDIÓW stacjonarne, studia pierwszego stopnia KARTA INFORMACYJNA PRZEDMIOTU NAZWA PRZEDMIOTU WG PLANU

Bardziej szczegółowo

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego IBS PAN, Warszawa 9 kwietnia 2008 Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego mgr inż. Marcin Jaruszewicz promotor: dr hab. inż. Jacek Mańdziuk,

Bardziej szczegółowo

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ; Algorytm LEM1 Oznaczenia i definicje: U - uniwersum, tj. zbiór obiektów; A - zbiór atrybutów warunkowych; d - atrybut decyzyjny; IND(B) = {(x, y) U U : a B a(x) = a(y)} - relacja nierozróżnialności, tj.

Bardziej szczegółowo

RELACYJNE BAZY DANYCH

RELACYJNE BAZY DANYCH RELACYJNE BAZY DANYCH Aleksander Łuczyk Bielsko-Biała, 15 kwiecień 2015 r. Ludzie używają baz danych każdego dnia. Książka telefoniczna, zbiór wizytówek przypiętych nad biurkiem, encyklopedia czy chociażby

Bardziej szczegółowo

INFORMATYKA W SELEKCJI

INFORMATYKA W SELEKCJI - zagadnienia. Dane w pracy hodowlanej praca z dużym zbiorem danych (Excel). Podstawy pracy z relacyjną bazą danych w programie MS Access. Specjalistyczne programy statystyczne na przykładzie pakietu SAS

Bardziej szczegółowo

Statystyczne sterowanie procesem

Statystyczne sterowanie procesem Statystyczne sterowanie procesem SPC (ang. Statistical Process Control) Trzy filary SPC: 1. sporządzenie dokładnego diagramu procesu produkcji; 2. pobieranie losowych próbek (w regularnych odstępach czasu

Bardziej szczegółowo

z dnia... 2015 r. w sprawie bazy danych obiektów topograficznych oraz mapy zasadniczej

z dnia... 2015 r. w sprawie bazy danych obiektów topograficznych oraz mapy zasadniczej ROZPORZĄDZENIE Projekt z dnia 18.06.15 r. MINISTRA ADMINISTRACJI I CYFRYZACJI 1) z dnia... 2015 r. w sprawie bazy danych obiektów topograficznych oraz mapy zasadniczej Na podstawie art. 19 ust. 1 pkt 7

Bardziej szczegółowo

MATEMATYCZNE METODY WSPOMAGANIA PROCESÓW DECYZYJNYCH

MATEMATYCZNE METODY WSPOMAGANIA PROCESÓW DECYZYJNYCH MATEMATYCZNE METODY WSPOMAGANIA PROCESÓW DECYZYJNYCH 1. Przedmiot nie wymaga przedmiotów poprzedzających 2. Treść przedmiotu Proces i cykl decyzyjny. Rola modelowania matematycznego w procesach decyzyjnych.

Bardziej szczegółowo

5. Wprowadzenie do prawdopodobieństwa Wprowadzenie Wyniki i zdarzenia Różne podejścia do prawdopodobieństwa Zdarzenia wzajemnie wykluczające się i

5. Wprowadzenie do prawdopodobieństwa Wprowadzenie Wyniki i zdarzenia Różne podejścia do prawdopodobieństwa Zdarzenia wzajemnie wykluczające się i Spis treści Przedmowa do wydania polskiego - Tadeusz Tyszka Słowo wstępne - Lawrence D. Phillips Przedmowa 1. : rola i zastosowanie analizy decyzyjnej Decyzje złożone Rola analizy decyzyjnej Zastosowanie

Bardziej szczegółowo

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć Katalog wymagań programowych na poszczególne stopnie szkolne Matematyka. Poznać, zrozumieć Kształcenie w zakresie podstawowym. Klasa 3 Poniżej podajemy umiejętności, jakie powinien zdobyć uczeń z każdego

Bardziej szczegółowo

Typowe błędy w analizie rynku nieruchomości przy uŝyciu metod statystycznych

Typowe błędy w analizie rynku nieruchomości przy uŝyciu metod statystycznych Typowe błędy w analizie rynku nieruchomości przy uŝyciu metod statystycznych Sebastian Kokot XXI Krajowa Konferencja Rzeczoznawców Majątkowych, Międzyzdroje 2012 Rzetelnie wykonana analiza rynku nieruchomości

Bardziej szczegółowo

Analiza internetowa czyli Internet jako hurtownia danych

Analiza internetowa czyli Internet jako hurtownia danych Analiza internetowa czyli Internet jako hurtownia danych Agenda 1. Hurtownie danych, eksploracja danych i OLAP 3. Internet 5. Analiza Internetowa 7. Google Analytics 9. Podsumowanie Hurtownie danych (definicja)

Bardziej szczegółowo