Eksploracja danych Jacek Rumiński

Wielkość: px
Rozpocząć pokaz od strony:

Download "Eksploracja danych Jacek Rumiński"

Transkrypt

1 Eksploracja danych Jacek Rumiński slajd 1 Kontakt: Katedra Inżynierii Biomedycznej, pk. 106, tel.: , fax: ,

2 Źródła, Internet, SQL/MM i inne standardy (dodatkowy zestaw slajdów) slajd 2

3 Problem potop danych Ilość generowanych i gromadzonych danych rośnie lawinowo (rozwój zarówno narzędzi wspomagających wytworzenie danych cyfrowych jak i technologii składowania danych) Tworzone zasoby (np. serwisy WWW) dostarczają licznych danych problemem jest jednak odkrycie wiedzy w nich ukrytych Możliwe rozwiązania: - hurtownie danych i OLAP, - odkrywanie wiedzy (reguł, klas, wzorców, regularności, ograniczeń, itp.) KDD Knowledge Discovery in Databases slajd 3

4 Eksploracja danych (Data mining) Eksploracja danych : Uzyskanie nietrywialnych, ukrytych, poprzednio nieznanych a potencjalnie użytecznych informacji lub reguł na podstawie dużych kolekcji danych. Eksploracją danych nie jest: Pozyskiwanie danych na podstawie przygotowanych (wzorców a priori) wyrażeń SQL, Pozyskiwanie danych z wykorzystaniem systemów eksperckich. Spotykane alternatywne lub zbliżone określenia dla eksploracji danych: data mining, Knowledge discovery(mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, etc. slajd 4

5 Zastosowania eksploracji danych Eksploracja danych stosowania jest głównie jako metodologia inteligentnego wspomagania podejmowania decyzji oraz formułowania wiedzy np.: klasyfikacja klientów firmy, klasyfikacja użytkowników serwisów WWW, formułowanie tez wiedzy ogólnej dotyczących np. istnienia nowych ciał niebieskich lub okoliczności występowania danej zmiany chorobowej, prognozowanie popytu i podaży, identyfikacja potrzeb klientów / użytkowników, wykrywanie zagrożeń i defraudacji (np. środków budżetowych), itd. slajd 5

6 Proces odkrywania wiedzy - diagram Eksploracja danych Podzbiór danych realizowanego zadania Reguły Przetwarzanie reguł Hurtownia Selekcja danych Czyszczenie danych Integracja danych slajd 6 Bazy danych

7 Insightful Miner slajd 7

8 SAS Enterprise Miner slajd 8

9 Proces odkrywania wiedzy - kroki Definicja celów oraz zakresu analiz, Selekcja danych z dostępnych źródeł (bazy dane, hurtownie) dla potrzeb utworzenia podzbioru danych związanego z określonym celem analiz, Czyszczenie danych i przetwarzanie wstępne (często niezwykle złożone), Redukcja i transformacja danych (pozostawienie tego co istotne we właściwej formie), Wybór i zastosowanie określonych metod i algorytmów eksploracji danych (np. klasyfikacji danych, określenie trendów, itd..) Przetwarzanie (np. usuwanie klas nieistotnych) i prezentacja odkrytych reguł, wzorców i informacji, Formułowanie i zastosowanie wiedzy (zdań szczegółowych ogólnych). slajd 9

10 EKSPLORACJA DANYCH - PLAN PRZETWARZANIE WSTEPNE - CZYSZCZENIE DANYCH, REDUKCJE, TRANSFORMACJE METODY (TECHNIKI EKSPLORACJI WIEDZY): A. Charakterystyki B. Reguły asocjacyjne C. Klasyfikacja D. Segmentacja E. Inne ZASTOSOWANIA slajd 10

11 Proces odkrywania wiedzy a BI Buisness Intelligence Wskaźnik zastosowania technologii w podejmowaniu decyzji Podjęcie decyzji Użytkownik końcowy Prezentacja danych Techniki wizualizacji Eksploracja danych Analityk (rynku, bankowy...) Analityk danych Analiza danych slajd 11 Hurtownie OLAP, MDA Źródła danych Dokumentacja papierowa, pliki, serwisy, OLTP, inne DBA

12 Eksploracja danych metodologia Charakterystki i uogólnienia Generalizacja, podsumowania, charakterystyka różnicowa, np. zdrowe i chore obszary tkanki, Określenie asocjacji (correlation and causality) Wielowymiarowe a jednowymiarowe asocjacje, wiek(x, ) ^ dochód(x, 2K..4K ) ^ kupuje(x, PC ) [support = 2%, confidence = 60%] zawiera(t, PC ) ^ zawiera(x, oprogramowanie ) [1%, 75%] slajd 12

13 slajd 13 Eksploracja danych metodologia Klasyfikacja i predykcja Znane wzorce/etykiety klas, Poszukiwanie są funkcje (modele, klasyfikatory) opisujące i rozdzielające poszczególne klasy dla potrzeb przyszłych analiz i predykcji (przewidzenia nieznanych lub brakujących wartości), Definiowane są przestrzenie cech, mierzone (wybierane) są wartości opisujące te cechy deskryptory, Przykłady: klasyfikacja studentów na podstawie ich ocen, klasyfikacja klientów na podstawie ich dochodów i rozchodów, Prezentacje: Reguły klasyfikacji, drzewa decyzyjne, sieci neuronowe, itd. Segmentacja/wydzielanie klastrów Nieznane wzorce/etykiety klas grupowanie danych w nowe klasy, identyfikacja klas, Analiza statystyczna danych minimalizacja wariancji rozkładu danych w obrębie klastra (klasy), Określenie minimalnej odległości (maksymalnego podobieństwa) zbioru deskryptorów danego elementu (obiektu) do średniego zbioru deskryptorów klastra.

14 Eksploracja danych metodologia Analiza ekstremów (odstępstw) Ektremum (odstępstwo, wyjątek): obiekt danych niezgodny z ogólną regułą danego zestawu, Wykorzystywana w detekcji błędów, defraudacji, niewłaściwych metod, itd. Analiza trendów Regresja, Identyfikacja parametrów modeli, Analiza okresowości danych, Analiza podobieństw danych, Inne slajd 14

15 Eksploracja danych przetwarzanie reguł Eksploracja danych może wygenerować tysiące reguł/wzorców, spośród których, tylko nieliczne są ważne dla danego celu i zakresu analiz. Dana reguła/wzorzec jest interesująca/ważna jeśli jest łatwo zrozumiała przez człowieka, powtarzalna dla nowych/testowych danych, jest potencjalnie użyteczna i nowa, a zarazem potwierdza hipotezy postawione przez użytkonika przed eksploracją danych - OPTYMALIZACJA Miary oceny reguł: Obiektywne: konstruowane na podstawie struktury i statystyki reguł, np. support, confidence, i inne. Subiektywne: konstruowane na podstawie oceny użytkownika (ekspert), np. unexpectedness, novelty, actionability, inne. slajd 15

16 Wstępne przetwarzanie danych - potrzeby Gromadzone dane są często - niekompletne: brakujące wartości atrybutów, brak istotnych dla analiz atrybutów, brak danych szczegółowych, -posiadają błędy lub wartości nieoczekiwane (odstępstwa), - niejednorodne: stosowanie różnych reguł dla składowania tych samych atrybutów, stosowanie różnych miar (jednostek), itd. Cel eksploracji danych wiedza zależy od jakości danych źródłowych. Złe dane - Nieprawdziwa wiedza błędne decyzje!!! slajd 16

17 Wstępne przetwarzanie danych - zadania Czyszczenie danych (Data cleaning) Uzupełnienie wartości brakujących, usuwanie szumu i błędów danych, identyfikacja i eliminacja odstępstw, usuwanie niejednorodności Integracja danych (Data integration) Integracja wielu baz danych, tabel, kolekcji, plików, kostek danych, itd. Transformacja danych (Data transformation) Normalizacja danych, agregacja Redukcja danych (Data reduction) Usuwanie redundancji, eliminacja danych nie wpływających na uzyskanie poprawnego wyniku Dyskretyzacja/kwantyzacja danych (Data discretization) Szczególna postać redukcji danych numerycznych slajd 17

18 Wstępne przetwarzanie danych - zadania slajd 18

19 Ignorowanie krotek, obiektów, wierszy,.., z atrybutami/polami o brakujących wartościach; operacja trudna gdy liczba takich elementów jest duża utrata danych; Ręczne uzupełnienie danych nudne, pracochłonne, często wręcz nierealne; Automatyczne uzupełnienie atrybutów/pól pustych wartościami domyślnymi, DC -> > Brakujące dane Automatyczne uzupełnienie atrybutów/pól pustych wartościami średnimi dla danego sąsiedztwa, klasy, itp.; Automatyczne uzupełnienie atrybutów/pól pustych wartościami najbardziej prawdopodobnymi zastosowanie reguły Bayesa lub drzew decyzyjnych. slajd 19

20 DC -> > Szumy, błędy i ekstrema Metody progowania/grupowania danych: 1. Sortowanie danych, podział na równe liczebnie grupy, 2. Wygładzenie wartości poprzez uśrednienie wartości w obrębie grupy, wyznaczenie mediany grupy, wygładzenie przez ekstrema grupy, itp. Metody segmentacji / wydzielania klastrów Detekcja i usunięcie ekstremów (odstępstw). Metody półautomatyczne Automatyczna detekcja błędu/ektremum; ręczna korekta wartości. Metody wyznaczania trendu - regresja Wygładzenie poprzez zastosowanie wyznaczonej funkcji opisującej rozkład wartości. slajd 20

21 DC -> > Szumy, błędy i ekstrema -> > wygładzanie 1. Posortowanie danych (np. cena towaru w PLN) 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 Podział na równe grupy: - G1: 4, 8, 9, 15 - G2: 21, 21, 24, 25 - G3: 26, 28, 29, Wygładzenie przez średnią: - G1: 9, 9, 9, 9 - G2: 23, 23, 23, 23 - G3: 29, 29, 29, Wygładzenie przez ekstrema: - G1: 4, 4, 4, 15 - G2: 21, 21, 25, 25 - G3: 26, 26, 26, 34 slajd 21

22 DC -> > Szumy, błędy i ekstrema -> klastry K1 K2 µ2 µ1 µ3 K3 rozrzut/odstępstwa/ekstrema slajd 22

23 DC -> > Szumy, błędy i ekstrema -> > regresja y Y1 Y1 y = x + 1 X1 x slajd 23

24 Integracja danych - problemy Integracja danych: Dane z różnych źródeł integrowane są w jeden spójny zasób, Integracja schematów: Integracja metadanych pochodzących z różnych źródeł, Identyfikacja znaczenia atrybutów (pól) np., A.cust-id B.cust- # Wykrywanie i eliminacja konfliktów Ten sam obiekt opisywany jest przez różne wartości atrybutów pochodzących z różnych zestawów danych, np. problem stosowanych miar i jednostek (odległość w km czy w milach?). slajd 24

25 Integracja danych redundancja danych Redundancja pojawia się przy integracji danych z wielu źródeł charakteryzujących się odmiennymi schematami: Różne nazwy dla tych samych atrybutów, Atrybuty wywiedzione z atrybutów innych relacji, obiektów, kolekcji (np. suma). Klasyczne formy eliminacji redundancji wykorzystują metody korelacyjne Eliminacja redundancji w sposób istotny wpływa na szybkość działania stosowanych metod eksploracji danych. slajd 25

26 Transformacja danych Eliminacja szumu, uśrednienie, wygładzenie, Agregacje, Generalizacje: concept hierarchy climbing Normalizacje / skalowanie: Skalowanie liniowe min-max, Normalizacja z-score, Skalowanie przez stałą. Konstrukcja nowych atrybutów slajd 26

27 Transformacja danych - normalizacja Skalowanie min-max v = v min maxa min A ' ( _ A _ A) + Normalizacja z-score A new max v v' = µ A δ A new min new_ min A slajd 27 Normalizacja przez stałą µ A v ' = v K np., v'= v 10 Gdzie: - wartość średnia A, δ A - odchylenie standardowe A, K stała, j najmniejsza liczba całkowita, taka że Max( v )<1 j

28 Transformacja danych nowe atrybuty slajd 28

29 Redukcja danych - problemy Hurtownie danych mogą zawierać terabajty wielowymiarowych danych; ich eksploracja może trwać zbyt długo dla potrzeb danego procesu decyzyjnego. Redukcja danych Cel: Generacja mniejszego zbioru danych niż oryginalny dającego te same lub bardzo podobne rezultatu w procesie eksploracji danych Techniki redukcji danych Agregacja Data cube (poziomy agregacji kostki, wymiary kostki) Redukcja wymiaru danych Zmiana reprezentacji danych Dyskretyzacja / generacja hierarchii slajd 29

30 Redukcja danych redukcja wymiaru danych Selekcja cech : Selekcja minimalnego zestawu cech, dla których rozkład prawdopodobieństwa danych klas jest najbardziej podobny do analogicznego rozkładu przy zastosowaniu wszytskich cech, Redukcja liczby wzroców w metodach dopasowania wzorca (pattern matching). Metody heurystyczne: Selekcja krokowa (najlepsza cecha pozostaje), Krokowa eliminacja wsteczna (najgorsza cecha jest eliminowana), Metody łączone, Drzewa decyzyjne. slajd 30

31 Redukcja danych drzewo decyzyjne (indukcja) Początkowy zbiór atrybutów: {A1, A2, A3, A4, A5, A6} A4? A1? A6? Klasa 1 Klasa 2 Klasa 1 Klasa 2 > Końcowy zbiór atrybutów: {A1, A4, A6} slajd 31

32 Redukcja danych kompresja danych Kompresja stratna odtwarzane po kompresji dane stanowią aproksymację danych oryginalnych. W procesie kompresji pozostają elementy najczęściej występujące lub najbardziej istotne ze względu na zadany parametr (np. jakość obrazu). Znane algorytmy kompresji stosujące transformację kosinusów lub falkową wykorzystują dedykowane metody kwantyzacji współczynników transformat. Kompresja bezstratna odtwarzane dane to dane oryginalne Dane oryginalne Przybliżenie danych oryginalnych bezstratna stratna Dane po kompresji slajd 32

33 Redukcja danych PCA Principal Component Analysis Mając N wektorów danych z k-wymiarowej przestrzeni, znaleźć takie c (c<=k) wektorów ortogonalnych, które dobrze (tzn. z dopuszczalnym błędem) reprezentują dane Każdy wektor danych jest liniową kombinacją c wektorów komponentów głównych Transformacja ta stosowana jest dla danych liczbowych Y2 X2 Y1 X1 slajd 33

34 Redukcja danych metody parametryczne Przyjmowany jest model rozkładu wartości atrybutu, np. liniowy, wykładniczy, Parametry modelu są dopasowywane tak, aby odpowiadały danym rzeczywistym, Składowany jest zatem identyfikator typu modelu oraz jego parametry, Przykłady: Regresja liniowa: Y = a X+ b Dwa parametry a i b wytyczają linię prostą. Zatem dla każdego X znane jest Y. Dopasowanie metoda najmniejszych kwadratów z zastosowaniem znanych zestawów danych Y1, Y2,, X1, X2,. Regresja odcinkami liniowa: Y = b0 + b1 X1 + b2 X2. Funkcje nieliniowe: Y=a0 exp(-b0 t)+a1 exp(-b1 t) itd. PRZYKŁADY y y = x + 1 x slajd 34

35 Redukcja danych metody nieparametryczne Nie zakładają modeli, Najczęściej stosowane techniki to: progowanie histogramu, wydzielanie klastrów, próbkowanie HISTOGRAM Grupopowanie elementów histogramu w paczki (granice wyznaczane przez wartości progowe: dolną i górną). Nowa wartość zgrupowanego elementu histogramu to wartość średnia składowych. slajd 35

36 Redukcja danych metody nieparametryczne KLASTRY Klastry stanowią grupy danych w przestrzeni cech. Metody wyznaczania klastrów stanowią jedną z najbardziej popularnych technik stosowanych w eksploracji danych (opis dalej). Każdy klaster może być reprezentowany przez liczbę parametrów (np. wartość średnia), znacznie mniejszą niż liczba jego składowych. Możliwe jest zbudowanie hierarchii klastrów, dzięki czemu możliwe są różne systemy indeksowania. K2 K1 µ2 slajd 36 µ1 µ3 K3

37 Redukcja danych metody nieparametryczne PRÓBKOWANIE Próbkowanie dziedziny danych w celu wygenerowania reprezentacji danych. Problem doboru metody próbkowania losowo, zgodnie z modelem, np. Co drugi element? Optymalny schemat próbkowania. slajd 37 Dane oryginalne Dane po redukcji

38 Redukcja danych dyskretyzacja i kategoryzacja Dyskretyzacja zmniejszenie liczby danych poprzez podział ciągłego zakresu wartości danego atrybutu na skończoną liczbę przedziałów. Każdy przedział może być reprezentowany przez etykiety składowane jako reprezentacja wartości danych. Kategoryzacja zmniejszenie liczby danych przez kategoryzację typu danych argumentu, tj. przejście od wartości bezwzględnej (np. 23 lata) do etykiety zakresu wartości (np. młody ). Kateogryzacja i związny z nią typ danych (categorical) stanowią podstawową operację przygotowania danych dla potrzeb klasyfikacji danych w DM. Stosowane techniki dyskretyzacji i kategoryzacji, to oprócz wymienionych wcześniej, te stosujące progowanie i segmentację danych. slajd 38

39 Redukcja danych dyskretyzacja i kategoryzacja DYSKRETYZACJA PRZEZ MINIMALIZACJĘ ENTROPII Dzieląc zbiór danych D na dwie klasy D1 i D2 zgodnie z obraną wartością progową T, to entropia podziału dana jest wzorem: L( D1) L( D2) H ( D, T ) = H ( D1) + H ( D2) L( D) L( D) Gdzie: H(.) entropia, L(a) liczba elementów a; Dla danej funkcji gęstości prawdopodobieństwa (estymacja przez histogram) p(g) (g=0...k-1), entropię można obliczyć jako: H = K 1 g= 0 p( g) ln( p( g)) T, dla którego H(D,T) jest minimalne jest wybierane jako optymlny prób podziału (binaryzacja). Proces może przebiegać rekurencyjnie aż do spełnienia zadanego kryterium, np. H ( D) H ( D, T ) > ε slajd 39

40 -Metoda modeli Redukcja danych dyskretyzacja i kategoryzacja INNE METODY PROGOWANIA -Metoda Otsu slajd 40 -inne

41 Proces eksploracji danych -Podstawowe zagadnienia -Definicja zadania slajd 41

42 Proces eksploracji danych - podstawowe zagadnienia -Proces eksploracji danych zakłada wyszukiwanie pewnych ukrytych i nieznanych wzorców. Automatyczna realizacja procesu może doprowadzić do bardzo dużej liczby uzyskanych wzorców, często nie istotnych dla rozpatrywanego zadania. -Proces eksploracji danych musi być zatem kontrolowany przez użytkownika. Najczęstsza obecnie realizacja procesu to interaktywne określanie parametrów na każdym etapie (w każdym kroku) eksploracji danych. Realizacja interfejsu obejmuje często dedykowane, graficzne diagramy przepływu działań, bądź ich hierarchiczne uszeregowanie. Inne rozwiązania obejmować mogą opracowanie dedykowanych języków zapytań. slajd 42

43 Proces eksploracji danych zadanie eksploracji Określenie danych związanych z zadaniem Określenie typu poszukiwanej wiedzy Zdefiniowanie posiadanej wiedzy ODKRYWANIE WIEDZY (opracowanie, testowanie i wykorzystanie modelu) Miary i ocena wiedzy odkrytej Wizualizacja odkrytej wiedzy slajd 43

44 Proces eksploracji danych dane Baza danych lub hurtownia Tabela bazy danych, kolekcja, kostka danych Warunki wyboru danych Istotne atrybuty, pola, wymiary Kryteria grupowania danych slajd 44

45 Proces eksploracji danych typ wiedzy Charakterystyki Asocjacje (reguły asocjacyjne) Klasyfikacja Predykcja Segmentacja (klastry) Analiza ekstremów Sekwencje inne slajd 45

46 Proces eksploracji danych posiadana wiedza Hierarchia wiedzy Hierarchia kategorii ogólnych np. ULICA <- MIASTO <- POWIAT <- WOJEWÓDZTWO <- KRAJ Hierarchia kategorii grupowych np. {20-39} = młody, {70-100} = emeryt Hierarchia kategorii operacyjnych np. Adres LOGIN <- WYDZIAŁ <- UNIWERSYTET <- KRAJ Hierarchia reguł np. ZYSK_MIN (X) <= CENA(X, P1) AND KOSZT (X, P2) AND (P1 - P2) < 500PLN slajd 46

47 Proces eksploracji danych miary i ocena Złożoność np. rozmiar reguły asocjacyjnej, wielkość drzewa decyzyjnego, itp., Pewność np. ufność reguły (confidence): P(A B) = n(a AND B)/ n (B), dokładność i błędy klasyfikacji, Użyteczność np. wsparcie reguły/wzorca (support), przekroczenie progu akceptowalności, itp., Nowość wiedza nowa, nieznana, zaskakująca, itp. slajd 47

48 Proces eksploracji danych miary i ocena Klienci kupują i chleb i masło Klienci kupują masło Wsparcie wzorca (support), s, prawdopodobieństwo, że transakcja zawiera {X, Y, Z} Klienci kupują chleb Ufność wzorca (confidence), c, prawdopodobieństwo warunkowe, że transakcja zawierająca {X,Y} zawiera również Z Dla jakich powiązań s i c >=50%? ID transakcji Produkt kupowany 2000 A,B,C 1000 A,C 4000 A,D 5000 B,E,F slajd 48 A C (50%, 66.6%) C A (50%, 100%) Par {A,C} jest 2/4 czyli s=0.5. {A} występuje 3 razy, ale tylko w 2 przypadkach jest i {C} czyli c1=2/3. {C} występuje 2 razy i wówczas występuje również {A}, czyli c2=2/2=1.

49 Proces eksploracji danych miary i ocena lub Lift = correlation, interest slajd 49

50 Proces eksploracji danych miary i ocena Korelacja (interest, correlation, lift) Support{ X Y} Support{ X} Support{ Y} Pozycje X i Y nie są skorelowane jeśli wartość miary jest mniejsza niż 1, są skorelowane w przeciwnym przypadku X Y Z Zbiór Wsparcie Korelacja X,Y 25% 2 X,Z 37,50% 0,9 Y,Z 12,50% 0,57 slajd 50

51 Proces eksploracji danych wizualizacja Wizualizacja danych źródłowych Wizualizacja procesu eksploracji danych Wizualizacja wiedzy: reguły, drzewa, itd., zgodnie z wymienionymi wcześniej rodzajami odkrywanej wiedzy. slajd 51

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Inżynieria biomedyczna

Inżynieria biomedyczna Inżynieria biomedyczna Projekt Przygotowanie i realizacja kierunku inżynieria biomedyczna studia międzywydziałowe współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego.

Bardziej szczegółowo

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

Eksploracja danych (data mining)

Eksploracja danych (data mining) Eksploracja (data mining) Tadeusz Pankowski www.put.poznan.pl/~pankowsk Czym jest eksploracja? Eksploracja oznacza wydobywanie wiedzy z dużych zbiorów. Eksploracja badanie, przeszukiwanie; np. dziewiczych

Bardziej szczegółowo

Szczegółowy opis przedmiotu zamówienia

Szczegółowy opis przedmiotu zamówienia ZP/ITS/19/2013 SIWZ Załącznik nr 1.1 do Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych dla studentów

Bardziej szczegółowo

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski Data Mining Wykład 1 Wprowadzenie do Eksploracji Danych Prowadzący Dr inż. Jacek Lewandowski Katedra Genetyki Wydział Biologii i Hodowli Zwierząt Uniwersytet Przyrodniczy we Wrocławiu ul. Kożuchowska 7,

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, 2011 Spis treści Przedmowa 11 Rozdział 1. WPROWADZENIE 13 1.1. Czym jest automatyczne rozpoznawanie mowy 13 1.2. Poziomy

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Data Mining Kopalnie Wiedzy

Data Mining Kopalnie Wiedzy Data Mining Kopalnie Wiedzy Janusz z Będzina Instytut Informatyki i Nauki o Materiałach Sosnowiec, 30 listopada 2006 Kopalnie złota XIX Wiek. Odkrycie pokładów złota spowodowało napływ poszukiwaczy. Przeczesywali

Bardziej szczegółowo

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2 Data Mining Wykład 2 Odkrywanie asocjacji Plan wykładu Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych Geneza problemu Geneza problemu odkrywania reguł

Bardziej szczegółowo

OLAP i hurtownie danych c.d.

OLAP i hurtownie danych c.d. OLAP i hurtownie danych c.d. Przypomnienie OLAP -narzędzia analizy danych Hurtownie danych -duże bazy danych zorientowane tematycznie, nieulotne, zmienne w czasie, wspierjące procesy podejmowania decyzji

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Wprowadzenie do technologii Business Intelligence i hurtowni danych Wprowadzenie do technologii Business Intelligence i hurtowni danych 1 Plan rozdziału 2 Wprowadzenie do Business Intelligence Hurtownie danych Produkty Oracle dla Business Intelligence Business Intelligence

Bardziej szczegółowo

Wprowadzenie do technologii informacyjnej.

Wprowadzenie do technologii informacyjnej. Wprowadzenie do technologii informacyjnej. Data mining i jego biznesowe zastosowania dr Tomasz Jach Definicje Eksploracja danych polega na torturowaniu danych tak długo, aż zaczną zeznawać. Eksploracja

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Usługi analityczne budowa kostki analitycznej Część pierwsza. Usługi analityczne budowa kostki analitycznej Część pierwsza. Wprowadzenie W wielu dziedzinach działalności człowieka analiza zebranych danych jest jednym z najważniejszych mechanizmów podejmowania decyzji.

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2012 Zagadnienia do omówienia 1. Miejsce i rola w firmie 2. Przegląd architektury

Bardziej szczegółowo

Pattern Classification

Pattern Classification Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

Proces odkrywania wiedzy z baz danych

Proces odkrywania wiedzy z baz danych Proces odkrywania wiedzy z baz danych Wydział Informatyki Politechnika Białostocka Marcin Czajkowski email: m.czajkowski@pb.edu.pl Świat pełen danych Świat pełen danych Możliwości analizowania i zrozumienia

Bardziej szczegółowo

Analiza metod wykrywania przekazów steganograficznych. Magdalena Pejas Wydział EiTI PW magdap7@gazeta.pl

Analiza metod wykrywania przekazów steganograficznych. Magdalena Pejas Wydział EiTI PW magdap7@gazeta.pl Analiza metod wykrywania przekazów steganograficznych Magdalena Pejas Wydział EiTI PW magdap7@gazeta.pl Plan prezentacji Wprowadzenie Cel pracy Tezy pracy Koncepcja systemu Typy i wyniki testów Optymalizacja

Bardziej szczegółowo

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach. http://zajecia.jakubw.

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach. http://zajecia.jakubw. Hurtownie danych Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach. http://zajecia.jakubw.pl/hur UZASADNIENIE BIZNESOWE Po co nam hurtownia danych? Jakie mogą

Bardziej szczegółowo

Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU

Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Hurtownie danych Przetwarzanie zapytań. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Magazyny danych operacyjnych, źródła Centralna hurtownia danych Hurtownie

Bardziej szczegółowo

Ewelina Dziura Krzysztof Maryański

Ewelina Dziura Krzysztof Maryański Ewelina Dziura Krzysztof Maryański 1. Wstęp - eksploracja danych 2. Proces Eksploracji danych 3. Reguły asocjacyjne budowa, zastosowanie, pozyskiwanie 4. Algorytm Apriori i jego modyfikacje 5. Przykład

Bardziej szczegółowo

Modelowanie glikemii w procesie insulinoterapii

Modelowanie glikemii w procesie insulinoterapii Dawid Kaliszewski Modelowanie glikemii w procesie insulinoterapii Promotor dr hab. inż. Zenon Gniazdowski Cel pracy Zbudowanie modelu predykcyjnego przyszłych wartości glikemii diabetyka leczonego za pomocą

Bardziej szczegółowo

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie SZKOLENIA SAS ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie DANIEL KUBIK ŁUKASZ LESZEWSKI ROLE ROLE UŻYTKOWNIKÓW MODUŁU

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego http://www.jakubw.pl/zajecia/hur/bi.pdf http://www.jakubw.pl/zajecia/hur/dw.pdf http://www.jakubw.pl/zajecia/hur/dm.pdf http://www.jakubw.pl/zajecia/hur/

Bardziej szczegółowo

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2012 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę

Bardziej szczegółowo

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych Temat: Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych Autorzy: Tomasz Małyszko, Edyta Łukasik 1. Definicja eksploracji danych Eksploracja

Bardziej szczegółowo

Eksploracja danych - wykład II

Eksploracja danych - wykład II - wykład 1/29 wykład - wykład Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Październik 2015 - wykład 2/29 W kontekście odkrywania wiedzy wykład - wykład 3/29 CRISP-DM - standaryzacja

Bardziej szczegółowo

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2007 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę

Bardziej szczegółowo

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Plan wykładów Wprowadzenie - integracja

Bardziej szczegółowo

Hurtownie danych - przegląd technologii

Hurtownie danych - przegląd technologii Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Plan wykład adów Wprowadzenie - integracja

Bardziej szczegółowo

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia.

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia. Załącznik nr 4 do zarządzenia nr 12 Rektora UJ z 15 lutego 2012 r. Sylabus modułu kształcenia na studiach wyższych Nazwa Wydziału Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia Wydział Matematyki

Bardziej szczegółowo

Transformacja wiedzy w budowie i eksploatacji maszyn

Transformacja wiedzy w budowie i eksploatacji maszyn Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces

Bardziej szczegółowo

Dostawa oprogramowania. Nr sprawy: ZP /15

Dostawa oprogramowania. Nr sprawy: ZP /15 ........ (pieczątka adresowa Oferenta) Zamawiający: Państwowa Wyższa Szkoła Zawodowa w Nowym Sączu, ul. Staszica,33-300 Nowy Sącz. Strona: z 5 Arkusz kalkulacyjny określający minimalne parametry techniczne

Bardziej szczegółowo

Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, Spis treści

Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, Spis treści Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, 2016 Spis treści Przedmowa XI I Podstawy języka Python 1. Wprowadzenie 3 1.1. Język i środowisko

Bardziej szczegółowo

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Metadane. Data Maining. - wykład VII Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Plan 1. Metadane 2. Jakość danych 3. Eksploracja danych (Data mining) 4. Sprawy róŝne

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

dr inż. Jacek Naruniec email: J.Naruniec@ire.pw.edu.pl

dr inż. Jacek Naruniec email: J.Naruniec@ire.pw.edu.pl dr inż. Jacek Naruniec email: J.Naruniec@ire.pw.edu.pl Coraz większa ilość danych obrazowych How much information, University of California Berkeley, 2002: przyrost zdjęć rentgenowskich to 17,2 PB rocznie

Bardziej szczegółowo

Hurtownie danych a transakcyjne bazy danych

Hurtownie danych a transakcyjne bazy danych Hurtownie danych a transakcyjne bazy danych Materiały źródłowe do wykładu: [1] Jerzy Surma, Business Intelligence. Systemy wspomagania decyzji, Wydawnictwo Naukowe PWN, Warszawa 2009 [2] Arkadiusz Januszewski,

Bardziej szczegółowo

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO Eksploracja danych a serwisy internetowe Przemysław KAZIENKO Wydział Informatyki i Zarządzania Politechnika Wrocławska kazienko@pwr.wroc.pl Dlaczego eksploracja danych w serwisach internetowych? Kanały

Bardziej szczegółowo

Hurtownia danych. Załącznik Nr 1 do SIWZ. Opis przedmiotu zamówienia. Lp. FUNKCJONALNOŚĆ/PARAMETRY WYMAGANE

Hurtownia danych. Załącznik Nr 1 do SIWZ. Opis przedmiotu zamówienia. Lp. FUNKCJONALNOŚĆ/PARAMETRY WYMAGANE Załącznik Nr 1 do SIWZ Opis przedmiotu zamówienia Lp. FUNKCJONALNOŚĆ/PARAMETRY WYMAGANE Hurtownia danych 1. Wielowymiarowa hurtownia danych oparta o model konstelacji faktów. 2. Brak ograniczenia na liczbę

Bardziej szczegółowo

Pierwsze wdrożenie SAP BW w firmie

Pierwsze wdrożenie SAP BW w firmie Pierwsze wdrożenie w firmie Mirosława Żurek, BCC Poznao, maj 2013 Zakres tematyczny wykładu Podstawowe założenia i pojęcia hurtowni danych ; Przykładowe pierwsze wdrożenie w firmie i jego etapy; Przykładowe

Bardziej szczegółowo

w ekonomii, finansach i towaroznawstwie

w ekonomii, finansach i towaroznawstwie w ekonomii, finansach i towaroznawstwie spotykane określenia: zgłębianie danych, eksploracyjna analiza danych, przekopywanie danych, męczenie danych proces wykrywania zależności w zbiorach danych poprzez

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Plan prezentacji 0 Wprowadzenie 0 Zastosowania 0 Przykładowe metody 0 Zagadnienia poboczne 0 Przyszłość 0 Podsumowanie 7 Jak powstaje wiedza? Dane Informacje Wiedza Zrozumienie 8 Przykład Teleskop Hubble

Bardziej szczegółowo

Opis spełnienia wymagań (PSBD)

Opis spełnienia wymagań (PSBD) Numer sprawy: DPZ/4/15 Nr arch. DPZ/087/059-16/15 1. Zakres przedmiotu zamówienia: Opis spełnienia wymagań (PSBD) Załącznik nr 1d do formularza ofertowego Wykonanie dzieła polegającego na dostawie, kompleksowym

Bardziej szczegółowo

Wykład XII. optymalizacja w relacyjnych bazach danych

Wykład XII. optymalizacja w relacyjnych bazach danych Optymalizacja wyznaczenie spośród dopuszczalnych rozwiązań danego problemu, rozwiązania najlepszego ze względu na przyjęte kryterium jakości ( np. koszt, zysk, niezawodność ) optymalizacja w relacyjnych

Bardziej szczegółowo

Metody eksploracji danych. Reguły asocjacyjne

Metody eksploracji danych. Reguły asocjacyjne Metody eksploracji danych Reguły asocjacyjne Analiza podobieństw i koszyka sklepowego Analiza podobieństw jest badaniem atrybutów lub cech, które są powiązane ze sobą. Metody analizy podobieństw, znane

Bardziej szczegółowo

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny. PI-14 01/12 Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.! Likwidacja lub znaczne ograniczenie redundancji (powtarzania się) danych! Integracja danych!

Bardziej szczegółowo

Opis efektów kształcenia dla modułu zajęć

Opis efektów kształcenia dla modułu zajęć Nazwa modułu: Eksploracja danych Rok akademicki: 2030/2031 Kod: MIS-2-105-MT-s Punkty ECTS: 5 Wydział: Inżynierii Metali i Informatyki Przemysłowej Kierunek: Informatyka Stosowana Specjalność: Modelowanie

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki

Bardziej szczegółowo

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Studia podyplomowe w zakresie przetwarzanie, zarządzania i statystycznej analizy danych

Studia podyplomowe w zakresie przetwarzanie, zarządzania i statystycznej analizy danych Studia podyplomowe w zakresie przetwarzanie, zarządzania i statystycznej analizy danych PRZEDMIOT (liczba godzin konwersatoriów/ćwiczeń) Statystyka opisowa z elementami analizy regresji (4/19) Wnioskowanie

Bardziej szczegółowo

Część I Istota analizy biznesowej a Analysis Services

Część I Istota analizy biznesowej a Analysis Services Spis treści Część I Istota analizy biznesowej a Analysis Services 1 Analiza biznesowa: podstawy analizy danych... 3 Wprowadzenie do analizy biznesowej... 3 Wielowymiarowa analiza danych... 5 Atrybuty w

Bardziej szczegółowo

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2008 Zagadnienia do omówienia 1. 2. Przegląd architektury HD 3. Warsztaty

Bardziej szczegółowo

Regresja i Korelacja

Regresja i Korelacja Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: drzewa grubsze są z reguły wyższe, drewno iglaste o węższych słojach ma większą gęstość, impregnowane

Bardziej szczegółowo

S t a t y s t y k a, część 3. Michał Żmihorski

S t a t y s t y k a, część 3. Michał Żmihorski S t a t y s t y k a, część 3 Michał Żmihorski Porównanie średnich -test T Założenia: Zmienne ciągłe (masa, temperatura) Dwie grupy (populacje) Rozkład normalny* Równe wariancje (homoscedasticity) w grupach

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław

Bardziej szczegółowo

Metody Prognozowania

Metody Prognozowania Wprowadzenie Ewa Bielińska 3 października 2007 Plan 1 Wprowadzenie Czym jest prognozowanie Historia 2 Ciągi czasowe Postępowanie prognostyczne i prognozowanie Predykcja długo- i krótko-terminowa Rodzaje

Bardziej szczegółowo

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010 Materiały/konsultacje Automatyczna predykcja http://www.ibp.pwr.wroc.pl/kotulskalab Konsultacje wtorek, piątek 9-11 (uprzedzić) D1-115 malgorzata.kotulska@pwr.wroc.pl Co to jest uczenie maszynowe? Uczenie

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

Grupy pytań na egzamin inżynierski na kierunku Informatyka

Grupy pytań na egzamin inżynierski na kierunku Informatyka Grupy pytań na egzamin inżynierski na kierunku Informatyka Dla studentów studiów dziennych Należy wybrać dwie grupy pytań. Na egzaminie zadane zostaną 3 pytania, każde z innego przedmiotu, pochodzącego

Bardziej szczegółowo

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA SPIS TEŚCI PRZEDMOWA...13 CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA 1. ZDARZENIA LOSOWE I PRAWDOPODOBIEŃSTWO...17 1.1. UWAGI WSTĘPNE... 17 1.2. ZDARZENIA LOSOWE... 17 1.3. RELACJE MIĘDZY ZDARZENIAMI... 18 1.4.

Bardziej szczegółowo

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. http://zajecia.jakubw.pl/hur INTEGRACJA DANYCH ETL

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. http://zajecia.jakubw.pl/hur INTEGRACJA DANYCH ETL Hurtownie danych Ładowanie, integracja i aktualizacja danych. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur INTEGRACJA DANYCH Źródła danych ETL Centralna hurtownia danych Do hurtowni

Bardziej szczegółowo

Micha Strzelecki Metody przetwarzania i analizy obrazów biomedycznych (2)

Micha Strzelecki Metody przetwarzania i analizy obrazów biomedycznych (2) Micha Strzelecki Metody przetwarzania i analizy obrazów biomedycznych (2) Prezentacja multimedialna współfinansowana przez Unię Europejską w ramach Europejskiego Funduszu Społecznego w projekcie Innowacyjna

Bardziej szczegółowo

Hurtownie danych. Wstęp. Architektura hurtowni danych. http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH

Hurtownie danych. Wstęp. Architektura hurtowni danych. http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH Wstęp. Architektura hurtowni. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH B. Inmon, 1996: Hurtownia to zbiór zintegrowanych, nieulotnych, ukierunkowanych

Bardziej szczegółowo

... prognozowanie nie jest celem samym w sobie a jedynie narzędziem do celu...

... prognozowanie nie jest celem samym w sobie a jedynie narzędziem do celu... 4 Prognozowanie historyczne Prognozowanie - przewidywanie przyszłych zdarzeń w oparciu dane - podstawowy element w podejmowaniu decyzji... prognozowanie nie jest celem samym w sobie a jedynie narzędziem

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem

Bardziej szczegółowo

Eksploracja danych - wykład VIII

Eksploracja danych - wykład VIII I Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 2 grudnia 2016 1/31 1 2 2/31 (ang. affinity analysis) polega na badaniu atrybutów lub cech, które są ze sobą powiązane. Metody

Bardziej szczegółowo

Analiza Statystyczna

Analiza Statystyczna Lekcja 5. Strona 1 z 12 Analiza Statystyczna Do analizy statystycznej wykorzystać można wbudowany w MS Excel pakiet Analysis Toolpak. Jest on instalowany w programie Excel jako pakiet dodatkowy. Oznacza

Bardziej szczegółowo

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia ZP/ITS/11/2012 Załącznik nr 1a do SIWZ ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych

Bardziej szczegółowo

Algorytmy genetyczne w interpolacji wielomianowej

Algorytmy genetyczne w interpolacji wielomianowej Algorytmy genetyczne w interpolacji wielomianowej (seminarium robocze) Seminarium Metod Inteligencji Obliczeniowej Warszawa 22 II 2006 mgr inż. Marcin Borkowski Plan: Przypomnienie algorytmu niszowego

Bardziej szczegółowo

Kurs Chemometrii Poznań 28 listopad 2006

Kurs Chemometrii Poznań 28 listopad 2006 Komisja Nauk Chemicznych Polskiej Akademii Nauk Oddział w Poznaniu Wydział Technologii Chemicznej Politechniki Poznańskiej w Poznaniu GlaxoSmithKline Pharmaceuticals S.A. w Poznaniu Stowarzyszenie ISPE

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania

Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania Przedmiot: Bazy danych Rok: III Semestr: V Rodzaj zajęć i liczba godzin: Studia stacjonarne Studia niestacjonarne Wykład 30 21 Ćwiczenia Laboratorium 30 21 Projekt Liczba punktów ECTS: 4 C1 C2 C3 Cel przedmiotu

Bardziej szczegółowo

Relacyjny model baz danych, model związków encji, normalizacje

Relacyjny model baz danych, model związków encji, normalizacje Relacyjny model baz danych, model związków encji, normalizacje Wyklad 3 mgr inż. Maciej Lasota mgr inż. Karol Wieczorek Politechnika Świętokrzyska Katedra Informatyki Kielce, 2009 Definicje Operacje na

Bardziej szczegółowo

Spis treści 3 SPIS TREŚCI

Spis treści 3 SPIS TREŚCI Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe

Bardziej szczegółowo

Sylabus do programu kształcenia obowiązującego od roku akademickiego 2014/15

Sylabus do programu kształcenia obowiązującego od roku akademickiego 2014/15 Sylabus do programu kształcenia obowiązującego od roku akademickiego 0/5 () Nazwa Rachunek prawdopodobieństwa i statystyka () Nazwa jednostki prowadzącej Wydział Matematyczno - Przyrodniczy przedmiot ()

Bardziej szczegółowo

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych - Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,

Bardziej szczegółowo

Algorytmy zrandomizowane

Algorytmy zrandomizowane Algorytmy zrandomizowane http://zajecia.jakubw.pl/nai ALGORYTMY ZRANDOMIZOWANE Algorytmy, których działanie uzależnione jest od czynników losowych. Algorytmy typu Monte Carlo: dają (po pewnym czasie) wynik

Bardziej szczegółowo

3. Modele tendencji czasowej w prognozowaniu

3. Modele tendencji czasowej w prognozowaniu II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa

Bardziej szczegółowo

Wykład 4: Statystyki opisowe (część 1)

Wykład 4: Statystyki opisowe (część 1) Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez statystycznych

Bardziej szczegółowo

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej KATEDRA MATEMATYKI TEMAT PRACY: ROZKŁAD NORMALNY ROZKŁAD GAUSSA AUTOR: BARBARA MARDOSZ Kraków, styczeń 2008 Spis treści 1 Wprowadzenie 2 2 Definicja

Bardziej szczegółowo