Analiza i eksploracja danych biznesowych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Analiza i eksploracja danych biznesowych"

Transkrypt

1 Analiza i eksploracja danych biznesowych Business Intelligence systemy wspomagania decyzji Dr inż. Marcin Blachnik

2 Plan zajęć 1. Dane czym są i jak je reprezentować 2. Metody analizy statystycznej (małe przypomnienie) 1. Podstawy statystyki 2. Regresja/korelacja 3. Analiza OLAP 3. Drążenie i eksploracja danych 1. Wstęp (podział zagadnień) 2. Metody grupowania danych 3. Metody klasyfikacji i regresji 4. Metody analizy asocjacyjnej 5. Wyodrębnianie reguł 6. Selekcja cech 7. Wstępne przetwarzanie danych (normalizacja, dyskretyzacja, uzupełnianie wartości brakujących itp)

3 O co chodzi Problem jesteśmy społeczeństwem informacji lecz nie wiedzy!!! Nadmiar informacji prowadzi do chaosu Cel z dużego zbioru danych opisujących zagadnienia biznesowe wydobyć jak najwięcej wiedzy czyli: Drążenie danych (ang. data mining)

4 Drążenie danych czyli czego? Co to są dane i jak je wydobyć? Dane zbiór informacji opisujących obiekty i relacje pomiędzy obiektami Różne sposoby reprezentacji informacji o obiektach i relacjach między nimi: Metoda grafowa Tabela danych metoda graficzna -wykres, rysunek techniczny Koszty 100zł 200zł 132zł Przychody 200zł 450zł 322zl Formuła matematyczna Opis słowny: Jacek ma 182 cm wzrostu, 83kg wagi, jest młodym meżczyzną mieszkającym w Katowicach Wykres

5 Zmienna Cecha atrybut Zaawansowana Analiza Danych Forma tabelaryczna reprezentacji informacji Pogoda Temp. Wilgotnieść Wiatr Grać słoneczna brak nie słoneczna obecny nie pochmurna brak tak deszczowa brak tak deszczowa brak tak deszczowa obecny nie pochmurna obecny tak słoneczna brak nie słoneczna brak tak deszczowa brak tak słoneczna obecny tak pochmurna obecny tak pochmurna brak tak deszczowa obecny nie

6 Typy zmiennych Jakościowe (symboliczne/nominalne) Ilościowe Rzeczywiste Porządkowe Dyskretyzacja Pogoda Temp. Wilgotnieść Wiatr Grać słoneczna ciepło wysoka brak nie słoneczna ciepło wysoka obecny nie pochmurna ciepło wysoka brak tak deszczowa normalnie wysoka brak tak deszczowa zimno normalna brak tak deszczowa zimno normalna obecny nie pochmurna zimno normalna obecny tak słoneczna normalnie wysoka brak nie słoneczna zimno normalna brak tak deszczowa normalnie normalna brak tak słoneczna normalnie normalna obecny tak pochmurna normalnie wysoka obecny tak pochmurna ciepło normalna brak tak deszczowa normalnie wysoka obecny nie Pogoda Temp. Wilgotnieść Wiatr Grać słoneczna brak nie słoneczna obecny nie pochmurna brak tak deszczowa brak tak deszczowa brak tak deszczowa obecny nie pochmurna obecny tak słoneczna brak nie słoneczna brak tak deszczowa brak tak słoneczna obecny tak pochmurna obecny tak pochmurna brak tak deszczowa obecny nie

7 Charakterystyka problemu Uczenie Nadzorowane Uczenie nienadzorowane/analiza koszykowa Pogoda Temp. Wilgotnieść Wiatr Grać słoneczna ciepło wysoka brak nie słoneczna ciepło wysoka obecny nie pochmurna ciepło wysoka brak tak deszczowa normalnie wysoka brak tak deszczowa zimno normalna brak tak deszczowa zimno normalna obecny nie pochmurna zimno normalna obecny tak słoneczna normalnie wysoka brak nie słoneczna zimno normalna brak tak deszczowa normalnie normalna brak tak słoneczna normalnie normalna obecny tak pochmurna normalnie wysoka obecny tak pochmurna ciepło normalna brak tak deszczowa normalnie wysoka obecny nie Pogoda Temp. Wilgotnieść Wiatr Grać słoneczna ciepło wysoka brak nie słoneczna ciepło wysoka obecny nie pochmurna ciepło wysoka brak tak deszczowa normalnie wysoka brak tak deszczowa zimno normalna brak tak deszczowa zimno normalna obecny nie pochmurna zimno normalna obecny tak słoneczna normalnie wysoka brak nie słoneczna zimno normalna brak tak deszczowa normalnie normalna brak tak słoneczna normalnie normalna obecny tak pochmurna normalnie wysoka obecny tak pochmurna ciepło normalna brak tak deszczowa normalnie wysoka obecny nie

8 Podział metod analizy danych Analiza jednowymiarowa Statystyka opisowa Współczynniki statystyczne: średnia, mediana, odchylenie standardowe i wariancja, kwartyle, współczynnik skośności, wsp. asymetrii, kurtoza Wykresy: histogram, wykres pudełkowy (ramka, wąsy) Analiza wielowymiarowa i drążenie danych

9 Statystyka opisowa

10 Wybieramy wartość środkową m=0.35 Próba: Zaawansowana Analiza Danych Współczynniki statystyczne Lp Wartość Średnia arytmetyczna (zmienne ilościowe) Gdzie: n liczba prób, x i wartości próby Mediana m (zmienne ilościowe) Wartość środkowa, tzn. taka, że po uporządkowaniu (posortowaniu) wartości powyżej i poniżej niej znajduje się tyle samo prób: Sortujemy dane Lp Wartość

11 Proste współczynniki statystyczne Średnia arytmetyczna CD. Uwaga: jest czuła na wartości odstające (patrz przykład), nie daje się obliczyć dla wartości symbolicznych Można też powiedzieć, że wartość średnia jest to taka wartość dla której μ = argmin x i μ 2 uzyskuje min. Ponadto małe zmiany w danych mogą istotnie wpłynąć na wartość estymowanej średniej Mediana CD. Uwaga: jest nieczuła na wartości odstające Można też powiedzieć, że mediana jest to taka wartość m dla której m = argmin x i m osiąga minimum Statystyka jest odporna małe zmiany w danych nie wpływają na estymowaną wartość, można ją wyznaczyć dla

12 Proste współczynniki statystyczne Dominanta (zmienne jakościowe) Oznacza symbol występujący najczęściej dla danej zmiennej Pogoda słoneczna słoneczna pochmurna deszczowa deszczowa deszczowa pochmurna słoneczna słoneczna deszczowa słoneczna pochmurna Pogoda Częstość słoneczna 5 pochmurna 3 deszczowa D = słoneczna D = 0.9 Dla zmiennej ilościowej (o ciągłym rozkładzie prawdopodobieństwa) dominanta oznacza wartość o największej wartości prawdopodobieństwa

13 Proste współczynniki statystyczne Odchylenie standardowe i wariancja Lp Wartość Intuicyjnie odchylenie standardowe informuje o szerokości rozkładu, czyli jak wygląda rozkład punktów wokół średniej. Im większe tym większy rozrzut punktów, im mniejsze tzn. że rozkład jest bardziej skoncentrowany war=2 war=1 war=

14 Proste współczynniki statystyczne Po co podział na odchylenie standardowe i wariancję Odchylenie standardowe wariancja Wariancja lepsza jeśli chcemy porównywać między sobą różne wariancje ponieważ uwypuklone są różnice między wartościami Odchylenie standardowe umożliwia porównywanie i interpretację wartości, gdyż wariancja nie zapewnia zgodności jednostek wariancja => (jednostki) 2 np. dla zmiennej zarobki wariancja ma jednostkę (zł) 2 odchyl std. zł

15 Proste współczynniki statystyczne Kwartyle i rozstęp ćwiartkowy Kwartyl - parametr opisujący rozkład, przykładem kwartyla jest mediana (kwartyl 1/2), kwartyl (1/4) oznacza, że 25% przypadków w próbie ma mniejszą wartość i 75% przypadków ma wartość większą od niego. kwartyl (3/4) oznacza, że 75% przypadków w próbie ma mniejszą wartość od niego i 25% przypadków ma wartość większą od niego. Rozstęp ćwiartkowy parametr o podobnym znaczeniu jak odchylenie standardowe, obliczany jako IQR = Q(3/4) Q(1/4) Przedział wartości pomiędzy którym znajduje się 50% wartości próby

16 Proste współczynniki statystyczne Jak wyznaczyć poszczególne kwartyle: Posortować wartości od najmniejszej do największej Policzyć medianę Q(1/4) Wybrać dolną połówkę i policzyć medianę Q(3/4) Wybrać górną połówkę i policzyć medianę Lp Lp Wartość Wartość Lp Q(1/4) =M( ) = Wartość Lp Q(3/4) =M( ) = Wartość IQR=Q(3/4)-Q(1/4) = =0.15

17 Proste współczynniki statystyczne współczynnik skośności umożliwia określenie asymetrii rozkładu, tzn. chcemy wiedzieć czy rozkład jest w którąś stronę rozciągnięty przyjmuje wartości A= 0 jeśli rozkład jest symetryczny, A<0 jeśli występuje lewostronna asymetria (wydłużone lewe ramię rozkładu) i A>0 jeśli występuje prawostronna asymetria (wydłużone prawe ramię rozkładu) = D = = A D = = M = = A M =

18 Kurtoza miara koncentracji lub spłaszczenia rozkładu, informuje na ile rozkład wartości jest skoncentrowany wokół wartości średniej Typy kurtozy: mezokurtyczne K=0, spłaszczenie rozkładu podobne do spłaszczenia rozkładu normalnego leptokurtyczne K>0, rozkład jest bardziej skoncentrowany niż rozkład normalnym platokurtyczne K<0, rozkład jest bardziej spłaszczony niż rozkład normalny

19 Kurtoza CD Żródło: Jeżeli w przedsiębiorstwie większość osób ma podobne zarobki to K > 0, czyli większość zarabia porównywalnie ze średnią Jeżeli K=0 to oznacza to że w przedsiębiorstwie zarobki mają rozkład normalny Jeżeli K<0 to oznacza to że mamy duży rozrzut zarobków

20 Współczynnik korelacji Bada liniową zależność między zmiennymi Źródło: Pozwala dokonać analizy czy dwie zmienne oddziaływają na siebie : Czy istnieje zależność między sprzedażą a wiekiem klienta. (np. wykorzystując karty lojalnościowe) Czy wielkość udzielanego kredytu zależy od wartości miesięcznych przychodów UWAGA: Założenie że zależność jest liniowa!!!, Gdy zależność jest nieliniowa ale monotoniczna to przechodzimy na rangi np. wsp. korelacji Spearmana

21 Regresja liniowa Pozwala przewidywać y na podstawie x. Czyli jeśli x i y są skorelowane (patrz korelacja) to na podstawie x możemy przewidywać y y = m i x i + b Problem znaleźć m i oraz b Gdy mamy tylko dwie zmienne x i y to parametry regresji liniowej y = mx + b wyraża się zależnością

22 OLAP OLAP - Online Analytical Processing Najbardziej podstawową metodą analizy danych jest analiza manualna, tzn. taka, w której my sami ręcznie dokonujemy analizy danych np. próbując zweryfikować różne zależności jakie występują pomiędzy różnymi atrybutami tabeli danych.

23 Narzędzie kostka OLAP - wielowymiarowym sześcianem, gdzie każda z krawędzi sześcianu odpowiada pojedynczym zmiennym, a dokładnej reprezentuje zbiór wartości danej zmiennej. >10000 Wartość kredytu 5000 do do do do mies 3 mies 6 mies 12 mies 24 mies 36 mies Zawodowe Średnie Wyższe Wykształcenie kredytobiorcy Okres kredytu

24 Zaawansowana Różne poziomy szczegółowości Analiza Danych 20 >10000 >10000 Wartość kredytu 5000 do do do do mies 3 mies 6 mies 12 mies 24 mies 36 mies Zawodowe Średnie Wyższe Wykształcenie kredytobiorcy Wartość kredytu 5000 do do do do mies 3 mies 6 mies 12 mies 24 mies 36 mies Zawodowe Średnie Wyższe Wykształcenie kredytobiorcy Okres kredytu Okres kredytu Ogółem ilość kredytów udzielanych na okres 12 miesięcy, niezależnie od wartości i wykształcenia Wartość = 436 Całkowita ilość kredytów udzielanych na okres 12 miesięcy, w wysokości 5000 do , niezależnie od wykształcenia Wartość = 137 >10000 >10000 Wartość kredytu 5000 do do do do mies 3 mies 6 mies 12 mies 24 mies 36 mies Zawodowe Średnie Wyższe Wykształcenie kredytobiorcy Wartość kredytu 5000 do do do do mies 3 mies 6 mies 12 mies 24 mies 36 mies Zawodowe Średnie Wyższe Wykształcenie kredytobiorcy Okres kredytu Okres kredytu

25 Kostka OLAP Kostka OLAP pozwala na analizę zależności między atrybutami, na różnym poziomie szczegółowości dzięki agregacji wartości (średnia, suma, mediana, liczba itp) Prosta kostka OLAP => Excel tabela przestawna

26 Prosta kostka OLAP => Excel tabela przestawna Lista atrybutów Etykiety kolumn Etykiety wierszy Widok tabeli przestawnej Atrybuty poddane agregacji

27

28

29 Drążenie danych

30 Drążenie danych lub eksploracja danych Wykorzystanie metod i narzędzi przetwarzania danych do wydobycia wiedzy o przedmiocie badanym: Analiza zmiennych Wizualizacja wielowymiarowych danych Rozwiązywanie problemów klasyfikacyjnych i regresyjnych Techniki analizy asocjacji Grupowanie danych (klasteryzacja/analiza skupień)

31 Logika rozmyta Algorytmy genetyczne Metody statystyczne Sieci neuronowe Wizualizacja Drążenie danych Rachunek prawdopodo bieństwa Rozpoznawa nie wzorców Systemy ekspertowe Uczenie maszynowe

32 Podział metod DM Grupowanie danych (uczenie nienadzorowane) poszukiwanie charakterystycznych skupień w danych Uczenie nadzorowane przewidywanie wartości zmiennych: Problemy klasyfikacyjne gdy zmienna wyjściowa (opisywana) jest zmienną jakościową Problemy regresyjne gdy zmienna wyjściowa (opisywana) jest zmienna ilościową Analiza koszykowa - analiza pod kątem asocjacji (skojarzeń) Selekcja cech Wyodrębnianie reguł Redukcja wymiarowości i wizualizacja

33 Zagadnienia analizy danych: grupowanie danych Alternatywne nazwy: analiza skupień, klasteryzacja, grupowanie danych (tzw. uczenie nienadzorowane) Znaleźć w danych grupy elementów podobnych Problem: Nadmiar danych to chaos więc naszym celem jest znalezienie charakterystycznych wzorców/grup w zgromadzonych danych Dane przed klasteryzacją Po klasteryzacji

34 Narzędzia: Zaawansowana Analiza Danych Grupowanie danych Algorytm kwantyzacji wektorów Kochonena, dendrogramy, algorytm Expectation maximization, dendrogramy Przykład: Określenie grup klientów korzystających z naszych usług, np. w celu określenia grup docelowych procesu reklamowego ( targetowania reklamy ), odgadnięcia oczekiwań poszczególnych grup w celu rozszerzenia oferty

35 Zagadnienia analizy danych: Analiza regresji Tzw. uczenie nadzorowane Wydobycie na podstawie danych informacji o zależności wejście / wyjście, gdzie wyjście jest funkcją ciągłą. Zastosowanie do przewidywanie wartości zmiennych ciągłych na podstawie danych historycznych Uczenie Wykorzystanie Pogoda Temp. Wilgotnieść Wiatr Grać słoneczna brak nie słoneczna obecny nie pochmurna brak tak deszczowa brak tak deszczowa brak tak deszczowa obecny nie pochmurna obecny tak słoneczna brak nie słoneczna brak tak deszczowa brak tak słoneczna obecny tak pochmurna obecny tak pochmurna brak tak deszczowa obecny nie

36 Zagadnienia analizy danych: Analiza regresji Tzw. uczenie nadzorowane Wydobycie na podstawie danych informacji o zależności wejście / wyjście, gdzie wyjście jest funkcją ciągłą. Zastosowanie do przewidywanie wartości zmiennych ciągłych na podstawie danych historycznych Uczenie Wykorzystanie Pogoda Temp. Wilgotnieść Wiatr Grać słoneczna brak nie słoneczna obecny nie pochmurna brak tak deszczowa brak tak deszczowa brak tak deszczowa obecny nie pochmurna obecny tak słoneczna brak nie słoneczna brak tak deszczowa brak tak słoneczna obecny tak pochmurna obecny tak pochmurna brak tak deszczowa obecny nie

37 Zagadnienia analizy danych: problemy klasyfikacyjne Tzw. uczenie nadzorowane Wydobycie na podstawie danych informacji o zależności wejście / wyjście, gdzie wyjście jest zmienną symboliczną. Zastosowanie do przewidywania wartości zmiennych symbolicznych na podstawie danych historycznych Uczenie Wykorzystanie Pogoda Temp. Wilgotnieść Wiatr Grać słoneczna brak nie słoneczna obecny nie pochmurna brak tak deszczowa brak tak deszczowa brak tak deszczowa obecny nie pochmurna obecny tak słoneczna brak nie słoneczna brak tak deszczowa brak tak słoneczna obecny tak pochmurna obecny tak pochmurna brak tak deszczowa obecny nie

38 Zagadnienia analizy danych: problemy klasyfikacyjne Tzw. uczenie nadzorowane Wydobycie na podstawie danych informacji o zależności wejście / wyjście, gdzie wyjście jest zmienną symboliczną. Zastosowanie do przewidywanie wartości zmiennych symbolicznych na podstawie danych historycznych Uczenie Wykorzystanie Pogoda Temp. Wilgotnieść Wiatr Grać słoneczna brak nie słoneczna obecny nie pochmurna brak tak deszczowa brak tak deszczowa brak tak deszczowa obecny nie pochmurna obecny tak słoneczna brak nie słoneczna brak tak deszczowa brak tak słoneczna obecny tak pochmurna obecny tak pochmurna brak tak deszczowa obecny nie

39 Zagadnienia analizy danych: analiza koszykowa Wyznaczenie reguł opisujących asocjacje, czyli charakterystyczne elementy występujące wspólnie co zwykle wrzucamy do koszyka na zakupach: np. kupując chleb zwykle kupujemy masło i mleko

40 Zagadnienia analizy danych: analiza koszykowa Wyznaczenie reguł opisujących asocjacje, czyli charakterystyczne elementy występujące wspólnie co zwykle wrzucamy do koszyka na zakupach: np. kupując chleb zwykle kupujemy masło i mleko

41 Zagadnienia analizy danych: wydobywanie reguł Uczenie nadzorowane Bazuje na reprezentacji wiedzy w postaci prostych i zrozumiałych reguł logicznych Umożliwia rozwiązywanie problemów regresyjnych i klasyfikacyjnych Jeżeli pogoda = słoneczna i wilgotność < 77.5 to grać w golfa = tak W odróżnieniu od innych metod obok wartości predykcji mamy możliwość zrozumienia sposobu podjęcia decyzji Np.. Urządzenie często ulega awarii cel znalezienie powodu jego awarii

42 Zagadnienia analizy danych: selekcja cech Ograniczenie zbioru danych poddanych analizie Wyznaczenie zbioru zmiennych, które są istotne z perspektywy analizowanego (opisu) problemu czyli: wyselekcjonowanie tych parametrów mierzonych danych biznesowych od których istotnie zależy zmienna predykowana Np. Szukamy pracownika do działu sprzedaży i interesują nas, jakie czynniki istotnie wpływają na wielkość sprzedaży

43 Zagadnienia analizy danych: wizualizacja danych Pozwala na podgląd i wyznaczenie obszarów zainteresowań, czasem również wstępne wyznaczenie parametrów metod stosowanych w dalszej analizie danych, czasem wstępny wybór narzędzi analizy danych 1 PCA Przykładowe wykorzystanie wizualizacji do analizy Procesu produkcyjnego

44 Opis narzędzi

45 Co to jest grupowanie Szukanie grup, obszarów stanowiących lokalne gromady punktów

46 Co to jest grupowanie 1 Może tak? Szukanie grup, obszarów stanowiących lokalne gromady punktów

47 Co to jest grupowanie A może tak?

48 Narzędzia i metody grupowania danych: podział Metody bazujące na minimalizacji skalarnego współczynnika jakości Algorytm k-średnich, vq itp.. Metody oparte na teorii grafów, Algorytm hierarchiczny

49 Grupowanie hierarchiczne

50 Grupowanie hierarchiczne 1. Jeżeli liczba obiektów > 1 2. Szuka najbliżej siebie leżących obiektów i łączy je razem w jeden nowy super obiekt 3. Idź do 1

51 Grupowanie hierarchiczne 1. Jeżeli liczba obiektów > 1 2. Szuka najbliżej siebie leżących obiektów i łączy je razem w jeden nowy super obiekt 3. Idź do 1

52 Grupowanie hierarchiczne 1. Jeżeli liczba obiektów > 1 2. Szuka najbliżej siebie leżących obiektów i łączy je razem w jeden nowy super obiekt 3. Idź do 1

53 Grupowanie hierarchiczne 1. Jeżeli liczba obiektów > 1 2. Szuka najbliżej siebie leżących obiektów i łączy je razem w jeden nowy super obiekt 3. Idź do 1

54 Odległości pomiędzy skupiskami Minimum minimalna odległość pomiędzy elementami zbiorów x i x Maksimum - maksymalna odległość pomiędzy elementami zbiorów x i x d min (, ) i min x x' x x' j Norma różnicy wartości średnich d max d m (, ) i j j i max x i x' (, ) m m' i j j x x' x i d x j

55 Metody minimalizacji skalarnego współczynnika jakości

56 Narzędzia i metody grupowania danych: Minimalizacja skalarnego współczynnika jakości Sprowadzenie problemu grupowania do zagadnienia optymalizacji Problem: zdefiniowanie funkcji celu Funkcja celu - funkcja opisująca jakość grupowania Metody MSWJ działają iteracyjnie, tzn powoli od stanu losowego podziału na grupy (chaosu) dokonują reorganizacji w celu wyznaczenia coraz lepszego podziału danych na klastry

57 Oznaczenia K liczba wektorów, obiektów C liczba klasterów na które chcemy dokonać podziału x(k); k=1..k k-aty element z wektora obiektów X i ; i=1..c i-ty element wektora klastrów v i centrum klastra = centrum grupy (grupy wektorów)

58 Algorytm k-średnich Współczynnik jakości uczenia: K C gdzie: J(U) k 1i 1 u ik d ik d x( k) v ik i v i zbiór (wektor) prototypów. 2

59 Przykład

60 Założenia grupowania Zbudować macierz podziału U=[u ik ],dim(u)=c K) Warunki: 1 o każdy element macierzy u ik należy do zbioru u ik {0,1} 2 o w każdej kolumnie suma elementów równa C jest 1 u ik i o suma w wierszach należy K - obrazów C - Klastrów C - k do przedziału K k 1 u ik 0, K

61 Algorytm k-średnich 1. Przyjmujemy macierz podziału U spełniającą trzy przedstawione uprzednio warunki K 2. Wyznacza się położenie prototypów: uikx( k) 3. zwiększa się licznik iteracji z=z+1, 4. szukamy macierzy U tak, by wyznaczyć dla każdego elementu wektora danych x minimalną odległość od wzorców 1 ik 1 i C 1 k K 0 x( k) v pozostaych 5. Sprawdzamy czy spełniony jest warunek u U w 1 i C 6. Jeśli różnica pomiędzy macierzami U w kolejnych iteracjach jest mniejsza od założonego to kończymy proces iteracji, jeśli nie to idź do 2 min j U ( z) ( z 1) j v i x( k) v przypadkach i k 1 K k 1 u ik

62 Narzędzia i metody grupowania danych: Algorytm kwantyzacji wektorów (VQ) 1. Zainicjuj położenie wektorów kodujących 2. Iteracyjnie l-razy 1. Dla każdego wektora treningowego 1. Znajdź najbliższy wektor kodujący (dla danej metryki) 2. Dokonaj aktualizacji położenia (wag) neuronu zgodnie z zależnością (1) 2. Dokonaj aktualizacji wsp. wg. zależności v = v x v i i j i v i x j wektor kodujący podlegający aktualizacji (wektor kodujący leżący najbliżej wektora x j ) Współczynnik uczenia maleje z każdą iteracją programu j-ty wektory uczący

63 Narzędzia i metody grupowania danych: Przykład

64 Metody oraz narzędzia klasyfikacji i regresji

65 Narzędzia klasyfikacji i regresji: problem klasyfikacyjny - separowalność Problem separowalny

66 Narzędzia klasyfikacji i regresji: problem klasyfikacyjny - separowalność 4 Problem nie separowalny

67 Narzędzia klasyfikacji i regresji: problem klasyfikacyjny - separowalność Problem liniowo separowalny

68 Narzędzia klasyfikacji i regresji: Problem liniowo nie separowalny 8 Problem liniowo nie separowalny

69 Narzędzia klasyfikacji i regresji: Jaka hiperpłaszczyzna jest lepsza?

70 Narzędzia klasyfikacji i regresji: Jaka hiperpłaszczyzna jest lepsza?

71 Narzędzia klasyfikacji i regresji: Jaka hiperpłaszczyzna jest lepsza?

72 Narzędzia klasyfikacji i regresji: Klasyfikator Fishera prosta prosta x j

73 Narzędzia klasyfikacji i regresji: Klasyfikator Fishera Duża odległość między średnimi Duża wariancja Mała wariancja Mała odległość między średnimi

74 Narzędzia klasyfikacji i regresji: Klasyfikator Fishera Założenie mamy problem dwuklasowy (klasę 0 i 1) o rozkładzie Gaussa, szukamy optymalnej hierpłaszczyzny separującej. Wyznaczamy średnie dla obydwu klas Wyznaczamy macierze kowariancji danych: C Fisher funkcję kosztu zdefiniował jako stosunek wariancji pomiędzy klasami w stosunku do wariancji wewnątrz klas Gdzie Ostatecznie Gdzie: 2 2 mięięd _ klasowe w y 1 w y 1 w y 1 y 1 w S 2 T T T wewnąewn _ klasowe w Cw w Cw 2w Cw, y 1 y 1 wektor normalny do hiperpłaszczyzny separującej klasy. w C 1 y 1 y y 1 sign wx b 2 b 2 y 1 y 1 w

75 Narzędzia klasyfikacji i regresji: Regresja liniowa Problem: Znaleźć parametry w funkcji liniowej y wx b d i 1 x i w i b y

76 Zapisując: Zaawansowana Analiza Danych Narzędzia klasyfikacji i regresji: Regresja liniowa x1,1 x1,2 x1, n w1 y1 x x x w y Xw y 2,1 2,2 2, n 2 2 xm,1 xm,2 x m, n w n y n Gdzie X jest macierzą reprezentującą cały zbiór uczący o m wektorach, każdy n elementowy Zapisując błąd jako e=xw-y wówczas funkcja kosztu przyjmuje postać: Stąd pochodna: I ostatecznie: J T T x w x y w x y 2 T 1 m i 1 m T 2 w xi yi xi i 1 T w X X X d T X Xw Y J 2

77 Klasyfikacja i regresja Metody nieliniowe

78 Narzędzia klasyfikacji i regresji: algorytm knn Podstawowa zasada: Elementy podobne powinny być rozwiązywane w podobny sposób -> inspiracja kognitywistyczna Problem: co to znaczy podobne i jak zdefiniować podobieństwo? W.Duch Similarity based methods a general framework for classification approximation and association. Control and Cybernetics, 2000 Podobieństwo to różne miary odległości lub ich odwrotności (miary podobieństwa)

79 Narzędzia klasyfikacji i regresji: algorytm 1NN Klasyfikator 1NN (najbliższego sąsiada) Uczenie: Zapamiętaj położenie wszystkich przypadków zbioru treningowego Testowanie/Wykorzystanie klasyfikatora: Dla każdego wektora testowego wyznacz jego odległość do wszystkich wektorów zbioru treningowego. Wybierz spośród wszystkich odległości wektor najbliższy (najbardziej podobny) danego wektora testowego W zależności od problemu: Klasyfikacja -> Przypisz etykietę wektorowi klasyfikowanemu równą etykiecie najbliższego sąsiada. Regresja -> Przypisz wektorowi klasyfikowanemu wartość wyjściową równą wartości wyjściowej najbliższego sąsiada

80 Narzędzia klasyfikacji i regresji: algorytm knn Klasyfikator knn (k najbliższych sąsiadów) Uczenie: Zapamiętaj położenie wszystkich przypadków zbioru treningowego Testowanie/Wykorzystanie klasyfikatora: Wyznacz odległości wektora testowego x do wszystkich przypadków zbioru treningowego. Znajdź k najbliższych sąsiadów W zależności od problemu: Klasyfikacja: przeprowadź głosowanie etykiety wektora testowego pomiędzy k najbliższymi sąsiadami, wybierz klasę najczęściej występującą Regresja: wyznacz średnią arytmetyczną k najbliższych sąsiadów

81 Narzędzia klasyfikacji i regresji: algorytm knn Dokładność klasyfikatora 1NN na zbiorze treningowym zawsze = 100%!!! Gorzej działa w rzeczywistości, choć i tak dobrze W problemach klasyfikacyjnych nigdy nie używaj 2NN, bo w pobliżu granicy decyzji zawsze będzie konflikt podczas głosowania (jeden za, jeden przeciw) knn duży nakład obliczeniowy w przypadku dużych zbiorów treningowych (duża złożoność przy testowaniu)

82 Obszary Voronoi

83 Obszary Voronoi / Przykład 1NN

84 Wada 1NN

85 Narzędzia klasyfikacji i regresji: model liniowy i nieliniowy Co lepsze model liniowy czy nieliniowy? Liniowy nie wszystkie problemy można za jego pomocą rozwiązać Nieliniowy często uczy się za dużo!!!

86 Narzędzia klasyfikacji i regresji: model liniowy i nieliniowy Co lepsze model liniowy czy nieliniowy? Liniowy nie wszystkie problemy można za jego pomocą rozwiązać Nieliniowy często uczy się za dużo!!! 2 y vs. x Linera

87 Narzędzia klasyfikacji i regresji: model liniowy i nieliniowy Co lepsze model liniowy czy nieliniowy? Liniowy nie wszystkie problemy można za jego pomocą rozwiązać Nieliniowy często uczy się za dużo!!! 2 y vs. x Nieliniowa

88 Sieci neuronowe

89 Sieci neuronowe - biologia

90 Sieci neuronowe - biologia

91 Wg. McCullocha i Pittsa: Sieci neuronowe - historia Gdzie: w i i-ta waga x i i-te neuronu (dendryt) z wyjście neuronu (akson) b wolny dendryt do niczego nie podłączony

92 Budowa neuronu neuron nieliniowy typu perceptron Gdzie: w i i-ta waga x i i-te neuronu (dendryt) z wyjście neuronu (akson) b wolny dendryt do niczego nie podłączony f nieliniowa funkcja aktywacji neuronu

93 Budowa neuronu neuron nieliniowy funkcje aktywacji Binarna: unipolarna i bipolarna (Perceptron Rosenblatta) Ciągła: Sigmoidalny również nazywany perceptronem

94 Budowa neuronu neuron nieliniowy funkcje aktywacji - cd Neurony radialne (lokalnym charakter działania) Gaussowski 2 z f( z) exp 2 2 Wielomianowy 2 2 f () z z 2 2 f () z z Hardyego Gdzie f() z z = x - t z np. z xi ti i

95 Sieci jednokierunkowe

96 Analiza koszykowa

97 Analiza koszykowa i zbiory częste Poszukiwanie zdarzeń często występujących wspólnie stąd analiza koszykowa, czyli jakie produkty zwykle wrzucamy do kszyka razem np. Jak jest chleb to wrzucamy zwykle masło i mleko. Przykład algorytm: Apriori, FP-Growth

98 Analiza koszykowa => Relacja wielu do wielu Zbiór produktów Koszyk (transakcje) W najprostszej wersji relację: koszyk => zbiór produktów można zapisać wykorzystując atrybuty binarne Lista transakcji Asortyment mleko masło chleb bułka parówka musztarda sok Transakcja Transakcja Transakcja Transakcja

99 Algorytm Apriori Najprostszy algorytm do analizy zbiorów częstych bazujący na właściwości Apriori: Zbiór częsty L i zbiór składający się z i- elementów/produktów Właściwość Apriori każdy podzbiór częsty zbioru częstego musi być częsty Operacja łączenia (JOIN) aby znaleźć kandydatów do stworzenia zbioru L k należy przeprowadzić łączenia (JOIN) zbiorów L k-1

100 Pseudo kod: Oznaczenia: Zaawansowana Analiza Danych Algorytm Apriori C k -zbiór kandydujący składający się z k elementów C k zbiór częsty składający się z k-emenetnów Algorytm: L 1 <- generuj wszystkie zbiory jednoelementowe For (k=1; L k!= ; k++) End C k+1 =generuj zbiory kandydujące na podstawie L k Foreach (Transakcja t : Zbiór transakcji) End Zwiększ częstość kandydatom z C k+1 zawartym w transakcji t L k+1 = Z C k+1 wybierz zbiory częstsze niż min_support Return wszystkie zbiory L 1.. L k

101 Warunek Apriori min_support = 2 TID Item 1 ab 2 ad 3 ac 4 acd 5 cd Zaawansowana Analiza Danych Szukamy kombinacji 3 elementowych, więc AB i CD nie możemy połączyć, bo powstanie ABCD Algorytm Apriori Zestaw wygenerowanych zbiorów 3 elementowych L 1 L 2 a b c d ab ac ad bc bd cd abc abd acd 6 bc 7 ac 8 abd 9 ad 10 cd Odpada przez regułę APRIORI. ABC powstało z AB i AC, ale ABC można też stworzyć z BC, a support BC=1 więc ABC nie spełnia warunku APRIORI L 3 acd 1 Odpada przez regułę APRIORI. ABD powstało z AB i AD, ale ABD można też stworzyć z BD, a support BD=1 więc ABD nie spełnia warunku APRIORI

102 Proce działania Zaawansowana Analiza Danych Algorytm FP-Growth Budowa struktury drzewa zwane FP-tree (budowa dwukrotnie przechodząc po zbiorze danych) Wydobycie zbiorów częstych trawersując drzewo Korzyści: Jedynie dwukrotne przejście przez elementy zbioru danych Bez generacji kandydatów Znacznie szybszy niż algorytm Apriori Wady: Rozmiar drzewa Budowa drzewa jest złożona

103 Wczytano transakcje TID=1 Struktura i budowa drzewa FP-tree Wczytano transakcje TID=1i2 Wczytano transakcje TID=1..10 Wczytano transakcje TID=1,2,3 Węzły odpowiadają produktom (items) i posiadają licznik Algorytm jednorazowo czyta jedną transakcję i rzutuje ja na drzewo Dzięki wykorzystaniu sortowania produktów ścieżki mogą się pokrywać Jeśli ścieżki się pokrywają powoduje to inkrementacje ich licznika Drzewo utrzymuje linki między węzłami zabierającymi ten sam produkt (linia kreskowa) Im więcej ścieżek pokrywa się wzajemnie tym większa kompresja drzewa

104 Struktura algorytmu: Przejście nr 1 Zaawansowana Analiza Danych Algorytm FP-Growth Obliczenie częstości każdego z przypadków Odrzucenie przypadków małolicznych Sortowanie przypadków w kolejności malejącej na podstawie ich częstości Przejście nr 2 Wczytanie transakcji i naniesienie ich na drzewo Wydobywanie zbiorów częstych Strategia z dołu do góry zacznij od liści i idź w górę szukając zbiorów częstych, wykorzystaj linki do przechodzenia po sąsiadach z tym samym produktem

105 Narzędzia i metody indukcji reguł

106 Narzędzia i metody indukcji reguł Podział metod indukcji reguł Bezpośrednia indukcja reguł indukcja reguł na podstawie przypadków Indukcja reguł z nauczonych modeli np. sieci neuronowych, modeli statystycznych itp. Transformacja wiedzy zawartej w różnych modelach nie regułowych (w których zgromadzona wiedza dla człowieka nieczytelna)

107 Narzędzia i metody indukcji reguł: algorytm sekwencyjnego pokrywania Najczęściej stosowana strategia metody przeszukiwania połączone z sekwencyjnym pokrywaniem przestrzeni wejściowej. Tworzenie reguł - Od najbardziej ogólnej do najbardziej szczegółowej Gdzie: Najbardziej ogólna reguła - taka która pokrywa maksymalną liczbę przypadków przestrzeni wejściowej X, dla których odpowiedzą systemu jest ta sama wartość Y, oraz jest to reguła o prostszej budowie swojej części warunkowej (mniej warunków) Reguła szczegółowa - pokrywająca małą liczbę wektorów przestrzeni X oraz ma bardziej złożoną część warunkową X Y K L M N A B C D X=(A X=(A lub B lub B) i lub C) Y = i (K lub L) Y=K Y=N

108 Narzędzia i metody indukcji reguł: drzewa decyzji

109 Narzędzia i metody indukcji reguł: drzewa decyzji Korzeń Gałęzie/Krawędzie Węzeł Liście

110 Narzędzia i metody indukcji reguł: drzewa decyzji zapis reguł Forma 1 If (Outlook = rain ) & (windy= False ) then Play = Yes If (Outlook = rain ) & (windy= True ) then Play = No If (Outlook = overcast ) then Play = Yes If (Outlook = sunny ) & (humidity>75) then Play = No If (Outlook = sunny ) & (humidity<=75) then Play = Yes Forma 2 If (Outlook = rain ) then chk_wind = Yes If (Outlook = overcast ) then play = Yes If (Outlook = sunny ) then chk_humidity = Yes If (chk_wind = Yes) & (windy= False ) then Play = Yes If (chk_wind = Yes) & (windy= True ) then Play = No If (chk_humidity = Yes) & (humidity>75) then Play = No If (chk_humidity = Yes) & (humidity<=75) then Play = Yes

111 Narzędzia i metody indukcji reguł: drzewa decyzji

112 Narzędzia i metody indukcji reguł: drzewa decyzji

113 Narzędzia i metody indukcji reguł: drzewa decyzji

114 Narzędzia i metody indukcji reguł: drzewa decyzji

115 Narzędzia i metody indukcji reguł: drzewa decyzji

116 Narzędzia i metody indukcji reguł: drzewa decyzji

117 Narzędzia i metody indukcji reguł: drzewo CART Drzewo binarne Indeks Gini Przycinanie w oparciu o Wsparcie dla danych niekompletnych Wykorzystanie alternatywnych atrybutów w węźle

118 Narzędzia i metody indukcji reguł: drzewo ID3 Indeks zysku informacyjnego Działa jedynie dla atrybutów dyskretnych/symbolicznych Drzewo o zmiennej liczbie potomstwa wychodzącego z jednego węzła Liczba potomków wychodzących z węzła równa jest liczbie wartości unikatowych dla wybranej, najlepszej cechy Problem z liczebnością wartości unikatowych (niestabilność indeksu)

119 Narzędzia i metody indukcji reguł: drzewo C4.5 i C5.0 Rozwinięcie drzewa ID3 Nowe kryterium względny zysk informacyjny Wsparcie dla cech ciągłych Wsparcie dla brakujących wartości (j.w.) Zmodyfikowana metoda oczyszczania C5.0 drzewo komercyjne.

120 Narzędzia i metody indukcji reguł: drzewo SSV Podobne do CART Drzewo binarne Indeks SSV Przycinanie drzewa - test krzyżowy (ang. crosswalidaition)

121 Selekcja cech

122 Narzędzia i metody selekcji cech Często mamy do dyspozycji dane w postaci zbioru cech lecz nie wiemy, które z tych cech będą dla nas istotne. W zbiorze cech mogą wystąpić cechy redundantne niosące identyczną informację jak istniejące już cechy Cel wybranie ze zbioru dostępnych cech tych, które nas interesują Interesujące cechy to takie, których kombinacja pozwala na możliwie najlepszą klasyfikację lub regresję!

123 8 7 6 Zaawansowana Analiza Danych Przykład z danymi iris

124 Narzędzia i metody selekcji cech: podział Ze względu na charakter problemu Nadzorowane Nienadzorowame Ze względu na relację z innymi algorytmami nadrzędnymi Filtry Wrappery (opakowane) Frapery kombinacja filtrów i Wrapperów Metody wbudowane

125 Narzędzia i metody selekcji cech: filtry cech Filtry cech to taka grupa metod, która autonomicznie podejmuje decyzję, które z cech będą istotne dla późniejszego procesu uczenia. Decyzja ta podejmowana jest na podstawie niezależnego od klasyfikatora współczynnika takiego jak informacja wzajemna lub dywergencja Kullbacka Leiblera lub inne wskaźniki statystyczne

126 Narzędzia i metody selekcji cech: filtry cech Strategia przeszukiwania Przygotowanie danych i ich preprocessing Filtr Wewnętrzna funkcja oceny Model klasyfikacyjny lub regresyjny

127 Narzędzia i metody selekcji cech: metody opakowane Metody opakowane to grupa metod w której występuje sprzężenie zwrotne pomiędzy elementem decyzyjnym (np.. Siecią neuronową) a algorytmem selekcji cech. Dzięki temu podzbiór cech optymalizowany jest pod kątem konkretnego klasyfikatora

128 Narzędzia i metody selekcji cech: metody opakowane Model klasyfikacyjny lub regresyjny Strategia przeszukiwania Przygotowanie danych i ich preprocesing Metoda opakowana Funkcja oceny Model klasyfikacyjny lub regresyjny

129 Narzędzia i metody selekcji cech: metody filtrów Zalety Uniwersalność uzyskany podzbiór cech jest niezależny od klasyfikatora, dzięki czemu teoretycznie możemy użyć dowolny klasyfikator W problemach medycznych jak analiza DNA zależy nam na znalezieniu genów odpowiedzialnych za pewne cechy, nie chcemy by wynik był zależny od użytej sieci neuronowej Szybkość jesteśmy niezależni od metody klasyfikacyjnej dzięki czemu złożoność obliczeniowa nie wpływa na szybkość i wydajność tego algorytmu Uniwersalność - algorytm tego typu może być wykorzystany do każdego problemu klasyfikacyjnego Wady Konieczność estymacji wielowymiarowych rozkładów prawdopodobieństwa

130 Narzędzia i metody selekcji cech: metody opakowane Zalety Wybrany podzbiór cech jest dostosowany do wymagań lub charakteru algorytmu decyzyjnego (sieci neuronowej itp) Większa dokładność niż metod filtrów Uniwersalność - algorytm tego typu może być wykorzystany do każdego problemu klasyfikacyjnego Wady Często większa złożoność obliczeniowa

131 Narzędzia i metody selekcji cech: kombinacje filtrów i metod opakowanych - Frappery Wykorzystuje się algorytm filtrów do selekcji cech, jednakże parametry filtru dostraja się na podstawie metody opakowującej. Właściwości Szybkość Często większa dokładność niż metod filtrów, lecz mniejsza niż metod opakowanych Uniwersalność - algorytm tego typu może być wykorzystany do każdego problemu klasyfikacyjnego

132 Narzędzia i metody selekcji cech: frappery Strategia przeszukiwania Filtr Model klasyfikacyjny lub regresyjny Wewnętrzna funkcja oceny Przygotowanie danych i ich preprocesing Funkcja oceny Model klasyfikacyjny lub regresyjny

133 Narzędzia i metody selekcji cech: metody wbudowane Metody wbudowane to taka grupa algorytmów, które wykorzystują pewne cechy algorytmów uczenia dokonując automatycznej selekcji cech na etapie uczenia sieci neuronowej lub innego algorytmu decyzyjnego Właściwości Szybkość selekcja cech realizowana jest podczas procesu uczenia, dzięki czemu nie musimy dokonywać żadnych dodatkowych obliczeń Dokładność metody te są zaprojektowane pod kątem konkretnego algorytmu Brak uniwersalności metody te można wykorzystywać jedynie dla danego algorytmu

134 Inne przydatne zagadnienia

135 Narzędzia i metody wstępnego przetwarzania danych Proces przygotowania danych do analizy: Normalizacja / standaryzacja danych Usunięcie wartości brakujących Transformacja pomiędzy różnymi typami cech

136 Narzędzia i metody wstępnego przetwarzania danych: normalizacja / standaryzacja Często analizie poddawane są różne zmienne opisujące różne dane o różnym przedziale wartości np.: Opis zmiennej Wynagrodzenie pracownika Obrót za okres 1 roku Wiek pracownika Przedział zmienności Od 1000 do zł Od do zł Od 20 do 65 lat Uwaga: zmiana wynagrodzenia o 500 zł może stanowić 50% minimalnego wynagrodzenia, podczas gdy zmiana obrotu o 500zł jest zupełnie nie istotna Jak uwzględnić wiek przy budowie modelu?

137 Narzędzia i metody wstępnego przetwarzania danych: normalizacja / standaryzacja Rozwiązanie normalizacja lub standaryzacja danych Opis zmiennej Przedział zmienności Po przeksztalceniu Wynagrodzenie pracownika Od 1000 do zł Od 0 ( ) do 1 (10000) Obrót za okres 1 roku Od do zł Od 0 ( ) do 1 ( ) Wiek pracownika Od 20 do 65 lat Od 0 (20) do 1 (65) Normalizacja: Przekształcenie wszystkich zmiennych tak by ich przedział zmienności był z zakresu od 0 do 1 Wada: bardzo czułe na wartości odstające Zaleta: W normalnej sytuacji zwykle lepiej działa Standaryzacja: Przekształcenie danych tak by ich wartość średnia była równa 0, oraz by odchylenie standardowe było równe 1 Wada: Zwykle nieco gorzej działa niż normalizacja Zaleta: Nie tak bardzo czułe na wartości odstające

138 Narzędzia i metody wstępnego przetwarzania danych: usuwanie wartości brakujących Problem: Często mając dane które chcemy poddać analizie nie dysponujemy pewnymi wartościami poszczególnych zmiennych np. Lp. Wiek Zarobki Obroty Zyski Płeć 1? M K ? ? M

139 Narzędzia i metody wstępnego przetwarzania danych: usuwanie wartości brakujących Rozwiązania: 1. Zastąpienie wartości brakujących średnią, medianą, dominantą etc. 2. Uzupełnienie wartości brakujących poprzez stworzenie pośrednich problemów klasyfikacyjnych (dla zmiennych jakościowych) lub regresyjnych (dla zmiennych ilościowych) 3. Wykorzystanie metod odpornych na wartości brakujące

140 Narzędzia i metody wstępnego przetwarzania danych: transformacje typów zmiennych/cech Niektóre typy metod analizy danych są zależne od typów zmiennych np.. Drzewo decyzji ID3 umożliwia pracę jedynie ze zmiennymi jakościowymi Sieci neuronowe i metody linowe wymagają wejść ciągłych czyli zmiennych ilościowych Rozwiązania: 1. Zastosowanie modeli niezależnych od typów danych 2. Konwersja danych do odpowiedniego typu

141 Narzędzia i metody wstępnego przetwarzania danych: transformacje typów zmiennych/cech Konwersja zmiennych jakościowych na ilościowe: Zamiana wartości symboli na ciągi wartości binarnych. Ciąg binarny składa się z tylu bitów ile występuje symboli w zmiennej jakościowej. Efekt: zwiększenie liczby zmiennych- np. Pogoda (j) słoneczna pochmurna Deszczowa Pogoda (i)

142 Narzędzia i metody wstępnego przetwarzania danych: transformacje typów zmiennych/cech Pogoda Temp. Wilgotność Wiatr Grać słoneczna brak nie słoneczna obecny nie pochmurna brak tak deszczowa brak tak deszczowa brak tak deszczowa obecny nie pochmurna obecny tak słoneczna brak nie słoneczna brak tak deszczowa brak tak słoneczna obecny tak pochmurna obecny tak pochmurna brak tak deszczowa obecny nie Pogoda Temp. Wilgotność Wiatr Grać brak nie obecny nie brak tak brak tak brak tak obecny nie obecny tak brak nie brak tak brak tak obecny tak obecny tak brak tak obecny nie

143 Narzędzia i metody wstępnego przetwarzania danych: transformacje typów zmiennych/cech Konwersja zmiennych ilościowe na jakościowe Wykorzystanie metod dyskretyzacji w celu zamiany wartości ciągłych na skończony zbiór wartości, możliwy do analizy przez algorytmy pracujące na zmiennych jakościowych Dyskretyzacja podział przedziału zmienności zmiennej ilościowej na podobszary np. Przedział zmienności: od 64 do 85 Podział na 3 wartości: 1. od 64 do od 71 do od 78 do 85 Przed dyskretyzacją Temp Po dyskretyzacji Temp

144 Zastosowania narzędzi analizy danych

145 Text Mining Text Mining analiza i rozumienie tekstów Przykłady: Przeszukiwanie baz tekstów (wyszukiwarka) Wyszukiwanie z uzględnieniem błędów - literówek Grupowanie dokumentów automatyczne odnajdywanie grup dokumentów podobnych Automatyczne odnajdywanie kategorii w dużych kolekcjach dokumentów Klasyfikacja dokumentów przydzielanie dokumentów do z góry określonych grup np. odnajdywanie i klasyfikacja spamu, klasyfikacja maili ze względu na treść z przeznaczeniem do odpowiedniego konsultanta

146 Text Mining Problem reprezentacji dokumentów algorytmy wymagają zapisu treści w postaci wektorów. Jeden wektor = jeden dokument (wektory mają stałą długość = stały zestaw atrybutów) Jak zdefiniować reprezentację dokumentu?

147 Typowa reprezentacja Text Mining jedno słowo = jeden atrybut Zbiór atrybutów = zbiór wszystkich słów we wszystkich dokumentach Przykład Dok1: Ala ma kota Dok2: Janek ma psa Dok3: Ala i Janek to para Uwaga: Tekst trzeba podzielić na słowa ten proces to tokenizacja. Zwykle realizowane przez podział dla znaków nie alfanumerycznych Ala ma kota Janek psa i to para Dok Dok Dok

148 Text Mining Inne problemy i wymogi preprocessingu (wstępnego przetwarzania danych) Dok1: Ala ma kota Dok2: Janek ma psa Dok3: Ala i Janek to para Dok4: Kot ali to Burek Problem wielkości liter i końcówek Ala i ali oraz Kot i kota Rozwiązanie: ujednolicenie rozmiaru liter!!! lematyzacja Ala ma kota Janek psa i to para Kot ali Burek Dok Dok Dok Dok

149 Text Mining Lematyzacja redukcja słowa do formy podstawowej czasownik => bezokolicznik, rzeczownik => mianownik liczba pojedyncza Ang. stemming lub redukcja wyrazu do korpusu Język polski => Morfeusz, Dawid Weiss - Stemming engine for Polish, Stempel Język angielski => Snowball, Porter, Lovins, np. usunięcie końcówek ed, usunięcie ing, usunięcie s z końca wyrazów

150 Text Mining Różne formy tworzenia wektorów Postać binarna zapisujemy jedynie 0/1 czy dany wyraz wystąpił czy nie wystąpił w treści dokumentu dobre dla krótkich tekstów, problem przy długich dokumentach Liczba wystąpień słowa w kolumnach zapisujemy liczbę wystąpień danego wyrazu problem jeśli jedne dokumenty są długie a inne krótkie konieczność stosowania odpowiednich miar odległości np. odległość kosinusowa Częstość względna liczba wystąpień unormowana przez liczbę słów w dokumencie TF-IDF miara bazująca na częstości z uwzględnieniem porównania kategorii

151 Text Mining TF-IDF Term Frequency Inverse document frequency. koncepcja miary polegająca na nieliniowym przeskalowaniu częstości poprzez uwzględnienie wag rozróżnialności słów pomiędzy kategoriami Obliczamy częstość występowania wektorów (Term Frequency), Obliczamy odwrotność częstości występowania słów w całej bazie dokumentów z uwzględnieniem kategorii

152 TF-IDF Text Mining gdzie: liczba wystąpień danego termu t i w dokumencie liczba wszystkich termów w dokumencie lub gdzie: - zbiór wszystkich dokumentów - zbiór dokumentów w których wystąpił term t i

153 Text Mining Porównywanie dokumentów zastosowanie odpowiedniej miary odległości przy reprezentacji dokumentów jako wektory. Obliczamy odległości między parą dokumentów i szukamy dwóch najbardziej podobnych Typy miar Odległość Hamminga Odległość Jaccarda Odległość kosinusowa Odległość Euklidesa

154 Text Mining miary odległości między dokumentami Odległość Hamminga do zastosowań dla danych binarnych lub symbolicznych postać binarna reprezentacji dokumentów n x D x, y = i y i 1 x i = y i 0 i=1 W zastosowaniu do analizy podobieństwa dokumentów liczy liczbę zgodnych (niezgodnych) danych suma w ilu przypadkach dany wyraz wystąpił w dokumencie A a nie wystąpił w dokumencie B UWAGA: Uwaga na normalizację długości, wynik zależny od liczby wyrazów w dokumentach!!!

155 Odległość Hamminga przykład Dok1: Ala ma kota Dok2: Janek ma psa Dok3: Pies Janka to Burek Dok4: Kot Ali to Ciapek Reprezentacja po stemmingu ala ma kot janek pies to ciapek burek Dok Dok Dok Dok D(dok1,dok4) = = 3 D(dok2,dok3) = D(dok1,dok2) =

156 Text Mining miary odległości między dokumentami Odległość/podobieństwo Jackarda D x, y = n i=1 n i=1 x i =1 & y i =1 x i =1 y i =1 ala ma kot janek pies to ciapek burek Dok Dok Dok Dok D(dok1,dok4) = = 2 5 D(dok2,dok3) = D(dok1,dok2) =

157 Text Mining miary odległości między dokumentami Odległość kosinusowa do zastosowań jeśli mamy reprezentację dokumentów w postaci liczby występowania słów. Mierzy cos. kąta między wyrazami: Można ją zastąpić miarą euklidesową po uprzedniej normalizacji: Odległość Euclidesa

158 Text Mining miary odległości między dokumentami Odległość Euklidesa Można stosować tylko dla reprezentacji typu: częstość i TF-IDF (wektory muszą być odpowiednio unormowane) Inne opcje: odległość Minkowskiego

159 Jak uwzględniać literówki!!! Nie szukając dokładnego dopasowania słów, a szukając słów najbardziej podobnych Słowa najbardziej podobne szukamy przez miary odległości/podobieństwa między słowami Typy miar odległosci między słowami: Odległość Hamminga Odległość Levensteina

160 Text Mining miary odległości między wyrazami Odległość Hamminga W zastosowaniu do porównywania słów suma w ilu przypadkach litery w słowie A były zgodne z literami w słowie B D x, y = n i=1 x i y i x i = y i 1 0 D( pieczywo, pieczeń ) = Problem jeśli wyrazy o różnej długości konieczna normalizacja długości

161 Odległość Levenstaina Odległość edycyjna podaje ile operacji należy wykonać aby przekształcić jeden napis w drugi Przykład: D(pies ; pies) = 0 D(granat ; granit) = 1 D(orczyk ; oracz) = 3 D(marka ; ariada) = 4

162

163 Odległość Levenstaina Krok 1 Krok 2 Krok 3 Krok 4 Krok 5 Krok 6 Krok 7 Krok 8 Krok 9 Krok 10 Ustalamy długość łańcuchów znaków (dlugoscp długość łańcucha pierwszego, dlugoscd długość łańcucha drugiego), Tworzymy macierz o rozmiarze dlugoscp x dlugoscd Inicjalizujemy pierwszy wiersz wartościami od 0 do dlugoscp Inicjalizujemy pierwszą kolumnę wartościami od 0 do dlugoscd Sprawdzamy każdy znak z łańcucha pierwszego (indeks i od 1 do dlugoscp) Sprawdzamy każdy znak z łańcucha drugiego (indeksy j od 1 do dlugoscd) Jeżeli znak na pozycji i równa się znakowi na pozycji j to koszt jest równy zero Jeżeli znak na pozycji i jest różny od znaku na pozycji j to koszt wynosi 1 Ustawiamy wartość komórki i,j jako minimum: komórka powyżej + 1 komórka z lewej + 1 komórka po skosie (góra, lewo) + koszt Algorytm powtarzamy dla wszystkich znaków, całkowity koszt otrzymamy w komórce o indeksie dlugoscp, dlugoscd

164

165 Problemy: Zaawansowana Analiza Danych Text Mining Wyszukiwanie dokumentów Odnajdywanie w bazie dokumentów tych dokumentów które są najbardziej podobne do wzorcowego (np. zwykła wyszukiwarka lub wyszukiwanie plagiatów) Grupowanie dokumentów Odnalezienie w zbiorze dokumentów, takich dokumentów które pod względem treści są do siebie podobne np. lub Klasyfikacja dokumentów Automatyczna przydzielenie dokumentów do odpowiedniej predefiniowanej grupy Np.: wykrywanie spamu, automatyczne przekierowywanie dokumentów do odpowiedniego działu na podstawie treści

166 Text Mining: Wyszukiwarka 1. Przygotuj zbiór dokumentów do przeszukiwania 2. Zamień dokumenty w bazie (z pkt 1) na zbiór wektorów (to robimy tylko raz) 3. Przygotuj dokument wzorcowy jeśli szukamy plagiatów lub hasło jeśli wyszukiwarka 4. Zamień dokument wzorcowy na wektor 5. Policz odległość między dokumentem wzorcowym a innymi w bazie danych 6. Posortuj odległości od najmniejszej do największej 7. Wyświetl wyniki wyszukiwania

167 Text Mining: Wyszukiwarka Wczytanie bazy dokumentów Przekształcenie dokumentów na wektory Obliczenie odległości między wektorami Dokument wzorcowy / wyszukiwana fraza Zamiana dokumentu wzorcowego na wektor Sortowanie dokumentów wg. odległości UWAGA: ważny jest dobór reprezentacji dokumentów i miary odległości!!!

168 Text Mining: Grupowanie Wczytanie bazy dokumentów Konwersja na reprezentację wektorową (TF IDF) Dokonanie automatycznego grupowania dokumentów w celu identyfikacji zbioru dokumentów podobnych

169 Wynik grupowania UWAGA: Kolory mogą się różnić Kategorie oryginalne UWAGA: Reprezentacja z dużą liczbą cech uwaga na algorytmy grupowania czułe na dużą liczbę cech (EM itp.)

170 Wczytanie poetykietowanych dokumentów (z podziałem na kategorie) Zaawansowana Analiza Danych Text Mining: Klasyfkacja Uczenie klasyfikaotra Przygotowanie klasyfikatora. Robimy raz i zapamiętujemy klasyfikator i statystykę słów Konwersja dokumentów na wektory wyjście word => TF-IDF dla danych testowych Klasyfikacja dokumentów na podstawie wcześniej przygotowanego klasyfikatora Wczytanie dokumentów do klasyfikacji (np. maili) Konwersja dokumentów do postaci wektorów

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć: Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Ewelina Dziura Krzysztof Maryański

Ewelina Dziura Krzysztof Maryański Ewelina Dziura Krzysztof Maryański 1. Wstęp - eksploracja danych 2. Proces Eksploracji danych 3. Reguły asocjacyjne budowa, zastosowanie, pozyskiwanie 4. Algorytm Apriori i jego modyfikacje 5. Przykład

Bardziej szczegółowo

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Parametry statystyczne

Parametry statystyczne I. MIARY POŁOŻENIA charakteryzują średni lub typowy poziom wartości cechy, wokół nich skupiają się wszystkie pozostałe wartości analizowanej cechy. I.1. Średnia arytmetyczna x = x 1 + x + + x n n = 1 n

Bardziej szczegółowo

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po

Bardziej szczegółowo

Analiza Statystyczna

Analiza Statystyczna Lekcja 5. Strona 1 z 12 Analiza Statystyczna Do analizy statystycznej wykorzystać można wbudowany w MS Excel pakiet Analysis Toolpak. Jest on instalowany w programie Excel jako pakiet dodatkowy. Oznacza

Bardziej szczegółowo

Graficzna prezentacja danych statystycznych

Graficzna prezentacja danych statystycznych Szkolenie dla pracowników Urzędu Statystycznego nt. Wybrane metody statystyczne w analizach makroekonomicznych Katowice, 12 i 26 czerwca 2014 r. Dopasowanie narzędzia do typu zmiennej Dobór narzędzia do

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

Zadania. Przygotowanie zbiorów danych. 1. Sposób 1: 2. Sposób 2:

Zadania. Przygotowanie zbiorów danych. 1. Sposób 1: 2. Sposób 2: Wstęp Jednym z typowych zastosowań metod sztucznej inteligencji i uczenia maszynowego jest przetwarzanie języka naturalnego (ang. Natural Language Processing, NLP), której typowych przykładem jest analiza

Bardziej szczegółowo

Statystyczne metody analizy danych

Statystyczne metody analizy danych Statystyczne metody analizy danych Statystyka opisowa Wykład I-III Agnieszka Nowak - Brzezińska Definicje Statystyka (ang.statistics) - to nauka zajmująca się zbieraniem, prezentowaniem i analizowaniem

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Definicje. Algorytm to:

Definicje. Algorytm to: Algorytmy Definicje Algorytm to: skończony ciąg operacji na obiektach, ze ściśle ustalonym porządkiem wykonania, dający możliwość realizacji zadania określonej klasy pewien ciąg czynności, który prowadzi

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Przykładowa analiza danych

Przykładowa analiza danych Przykładowa analiza danych W analizie wykorzystano dane pochodzące z publicznego repozytorium ArrayExpress udostępnionego na stronach Europejskiego Instytutu Bioinformatyki (http://www.ebi.ac.uk/). Zbiór

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Często spotykany jest również asymetryczny rozkład gamma (Г), opisany za pomocą parametru skali θ i parametru kształtu k:

Często spotykany jest również asymetryczny rozkład gamma (Г), opisany za pomocą parametru skali θ i parametru kształtu k: Statystyczne opracowanie danych pomiarowych W praktyce pomiarowej często spotykamy się z pomiarami wielokrotnymi, gdy podczas pomiaru błędy pomiarowe (szumy miernika, czynniki zewnętrzne) są na tyle duże,

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin. Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Zadania analityczne (1) Analiza przewiduje badanie podobieństw

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY Liczebności i częstości Liczebność liczba osób/respondentów/badanych, którzy udzielili tej konkretnej odpowiedzi. Podawana w osobach. Częstość odsetek,

Bardziej szczegółowo

Sposoby prezentacji problemów w statystyce

Sposoby prezentacji problemów w statystyce S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki

Bardziej szczegółowo

Wprowadzenie do technologii informacyjnej.

Wprowadzenie do technologii informacyjnej. Wprowadzenie do technologii informacyjnej. Data mining i jego biznesowe zastosowania dr Tomasz Jach Definicje Eksploracja danych polega na torturowaniu danych tak długo, aż zaczną zeznawać. Eksploracja

Bardziej szczegółowo

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS Techniki uczenia maszynowego nazwa SYLABUS Obowiązuje od cyklu kształcenia: 2014/20 Część A. Informacje ogólne Elementy składowe sylabusu Nazwa jednostki prowadzącej studiów Poziom kształcenia Profil studiów

Bardziej szczegółowo

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO. Rzeczywistość (istniejąca lub projektowana).. Model fizyczny. 3. Model matematyczny (optymalizacyjny): a. Zmienne projektowania

Bardziej szczegółowo

CLUSTERING. Metody grupowania danych

CLUSTERING. Metody grupowania danych CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means

Bardziej szczegółowo

Analiza Współzależności

Analiza Współzależności Statystyka Opisowa z Demografią oraz Biostatystyka Analiza Współzależności Aleksander Denisiuk denisjuk@euh-e.edu.pl Elblaska Uczelnia Humanistyczno-Ekonomiczna ul. Lotnicza 2 82-300 Elblag oraz Biostatystyka

Bardziej szczegółowo

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski Sterowanie procesem i jego zdolność Zbigniew Wiśniewski Wybór cech do kart kontrolnych Zaleca się aby w pierwszej kolejności były brane pod uwagę cechy dotyczące funkcjonowania wyrobu lub świadczenia usługi

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

Algorytmy odkrywania binarnych reguł asocjacyjnych

Algorytmy odkrywania binarnych reguł asocjacyjnych Algorytmy odkrywania binarnych reguł asocjacyjnych A-priori FP-Growth Odkrywanie asocjacji wykład 2 Celem naszego wykładu jest zapoznanie się z dwoma podstawowymi algorytmami odkrywania binarnych reguł

Bardziej szczegółowo

4.3 Grupowanie według podobieństwa

4.3 Grupowanie według podobieństwa 4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi

Bardziej szczegółowo

Wykład XII. optymalizacja w relacyjnych bazach danych

Wykład XII. optymalizacja w relacyjnych bazach danych Optymalizacja wyznaczenie spośród dopuszczalnych rozwiązań danego problemu, rozwiązania najlepszego ze względu na przyjęte kryterium jakości ( np. koszt, zysk, niezawodność ) optymalizacja w relacyjnych

Bardziej szczegółowo

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Wprowadzenie Podstawowe cele analizy zbiorów danych Uogólniony opis poszczególnych

Bardziej szczegółowo

Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie

Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie Zadanie Zbadano satysfakcję z życia w skali 1 do 10 w dwóch grupach rodziców: a) Rodzice dzieci zdrowych oraz b) Rodzice dzieci z niepełnosprawnością

Bardziej szczegółowo

Jak przekształcać zmienne jakościowe?

Jak przekształcać zmienne jakościowe? Data Preparation Jak przekształcać zmienne jakościowe? Marta Płonka Predictive Solutions W ostatnim artykule zobaczyliśmy, jak sprawdzić, czy między wybranymi przez nas predyktorami a zmienną przewidywaną

Bardziej szczegółowo

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

KADD Metoda najmniejszych kwadratów funkcje nieliniowe Metoda najmn. kwadr. - funkcje nieliniowe Metoda najmniejszych kwadratów Funkcje nieliniowe Procedura z redukcją kroku iteracji Przykłady zastosowań Dopasowanie funkcji wykładniczej Dopasowanie funkcji

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

Data Mining Kopalnie Wiedzy

Data Mining Kopalnie Wiedzy Data Mining Kopalnie Wiedzy Janusz z Będzina Instytut Informatyki i Nauki o Materiałach Sosnowiec, 30 listopada 2006 Kopalnie złota XIX Wiek. Odkrycie pokładów złota spowodowało napływ poszukiwaczy. Przeczesywali

Bardziej szczegółowo

4.2. Statystyczne opracowanie zebranego materiału

4.2. Statystyczne opracowanie zebranego materiału 4.2. Statystyczne opracowanie zebranego materiału Zebrany i pogrupowany materiał badawczy należy poddać analizie statystycznej w celu dokonania pełnej i szczegółowej charakterystyki interesujących badacza

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

TP1 - TABELE PRZESTAWNE od A do Z

TP1 - TABELE PRZESTAWNE od A do Z TP1 - TABELE PRZESTAWNE od A do Z Program szkolenia 1. Tabele programu Excel 1.1. Wstawianie tabeli 1.2. Style tabeli 1.3. Właściwości tabeli 1.4. Narzędzia tabel 1.4.1. Usuń duplikaty 1.4.2. Konwertuj

Bardziej szczegółowo

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej 7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach

Bardziej szczegółowo

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology

Bardziej szczegółowo

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl Wprowadzenie Podstawowe cele analizy zbiorów danych Uogólniony opis poszczególnych

Bardziej szczegółowo

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Informatyki i Elektroniki Instrukcja do zajęć laboratoryjnych wersja: 1.0 Nr ćwiczenia: 12, 13 Temat: Cel ćwiczenia: Wymagane przygotowanie

Bardziej szczegółowo

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych Przykłady: Błąd pomiarowy Wzrost, wydajność Temperatura ciała Zawartość różnych składników we

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2 STATYSTYKA I DOŚWIADCZALNICTWO Wykład Parametry przedziałowe rozkładów ciągłych określane na podstawie próby (przedziały ufności) Przedział ufności dla średniej s X t( α;n 1),X + t( α;n 1) n s n t (α;

Bardziej szczegółowo

MS EXCEL KURS DLA ZAAWANSOWANYCH Z WYKORZYSTANIEM VBA

MS EXCEL KURS DLA ZAAWANSOWANYCH Z WYKORZYSTANIEM VBA COGNITY Praktyczne Skuteczne Szkolenia i Konsultacje tel. 12 421 87 54 biuro@cognity.pl www.cognity.pl MS EXCEL KURS DLA ZAAWANSOWANYCH Z WYKORZYSTANIEM VBA C O G N I T Y SZKOLENIE MS EXCEL KURS ZAAWANSOWANYCH

Bardziej szczegółowo

Transformacja wiedzy w budowie i eksploatacji maszyn

Transformacja wiedzy w budowie i eksploatacji maszyn Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Plan prezentacji 0 Wprowadzenie 0 Zastosowania 0 Przykładowe metody 0 Zagadnienia poboczne 0 Przyszłość 0 Podsumowanie 7 Jak powstaje wiedza? Dane Informacje Wiedza Zrozumienie 8 Przykład Teleskop Hubble

Bardziej szczegółowo

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne. 1 Agata Boratyńska WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne. Agata Boratyńska Wykłady ze statystyki 2 Literatura J. Koronacki i J. Mielniczuk Statystyka WNT 2004

Bardziej szczegółowo

Mathcad c.d. - Macierze, wykresy 3D, rozwiązywanie równań, pochodne i całki, animacje

Mathcad c.d. - Macierze, wykresy 3D, rozwiązywanie równań, pochodne i całki, animacje Mathcad c.d. - Macierze, wykresy 3D, rozwiązywanie równań, pochodne i całki, animacje Opracował: Zbigniew Rudnicki Powtórka z poprzedniego wykładu 2 1 Dokument, regiony, klawisze: Dokument Mathcada realizuje

Bardziej szczegółowo

Zadanie 2.Na III roku bankowości złożonym z 20 studentów i 10 studentek przeprowadzono test pisemny ze statystyki. Oto wyniki w obu podgrupach.

Zadanie 2.Na III roku bankowości złożonym z 20 studentów i 10 studentek przeprowadzono test pisemny ze statystyki. Oto wyniki w obu podgrupach. Zadanie 1.Wiadomo, że dominanta wagi tuczników jest umiejscowiona w przedziale [120 kg, 130 kg] i wynosi 122,5 kg. Znane są również liczebności przedziałów poprzedzającego i następnego po przedziale dominującym:

Bardziej szczegółowo

Zawartość. Zawartość

Zawartość. Zawartość Opr. dr inż. Grzegorz Biesok. Wer. 2.20 2011 Zawartość Zawartość 1. Tworzenie szeregu rozdzielczego przedziałowego (klasowego)... 3 2. Podstawowy opis struktury... 3 3. Opis rozkładu jednej cechy szereg

Bardziej szczegółowo

Arkusz kalkulacyjny Excel

Arkusz kalkulacyjny Excel Arkusz kalkulacyjny Excel Ćwiczenie 1. Sumy pośrednie (częściowe). POMOC DO ĆWICZENIA Dzięki funkcji sum pośrednich (częściowych) nie jest konieczne ręczne wprowadzanie odpowiednich formuł. Dzięki nim

Bardziej szczegółowo

Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU

Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Hurtownie danych Przetwarzanie zapytań. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Magazyny danych operacyjnych, źródła Centralna hurtownia danych Hurtownie

Bardziej szczegółowo

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego IBS PAN, Warszawa 9 kwietnia 2008 Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego mgr inż. Marcin Jaruszewicz promotor: dr hab. inż. Jacek Mańdziuk,

Bardziej szczegółowo

Analiza wariancji. dr Janusz Górczyński

Analiza wariancji. dr Janusz Górczyński Analiza wariancji dr Janusz Górczyński Wprowadzenie Powiedzmy, że badamy pewną populację π, w której cecha Y ma rozkład N o średniej m i odchyleniu standardowym σ. Powiedzmy dalej, że istnieje pewien czynnik

Bardziej szczegółowo

10. Wstęp do Teorii Gier

10. Wstęp do Teorii Gier 10. Wstęp do Teorii Gier Definicja Gry Matematycznej Gra matematyczna spełnia następujące warunki: a) Jest co najmniej dwóch racjonalnych graczy. b) Zbiór możliwych dezycji każdego gracza zawiera co najmniej

Bardziej szczegółowo

Wykrywanie nietypowości w danych rzeczywistych

Wykrywanie nietypowości w danych rzeczywistych Wykrywanie nietypowości w danych rzeczywistych dr Agnieszka NOWAK-BRZEZIŃSKA, mgr Artur TUROS 1 Agenda 1 2 3 4 5 6 Cel badań Eksploracja odchyleń Metody wykrywania odchyleń Eksperymenty Wnioski Nowe badania

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela

Statystyka w pracy badawczej nauczyciela Statystyka w pracy badawczej nauczyciela Wykład 1: Terminologia badań statystycznych dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka (1) Statystyka to nauka zajmująca się zbieraniem, badaniem

Bardziej szczegółowo

Wykład z modelowania matematycznego. Zagadnienie transportowe.

Wykład z modelowania matematycznego. Zagadnienie transportowe. Wykład z modelowania matematycznego. Zagadnienie transportowe. 1 Zagadnienie transportowe zostało sformułowane w 1941 przez F.L.Hitchcocka. Metoda rozwiązania tego zagadnienia zwana algorytmem transportowymópracowana

Bardziej szczegółowo

2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi. a. Wprowadzenie, aspekt psychologiczny, wady statystyki

2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi. a. Wprowadzenie, aspekt psychologiczny, wady statystyki 1. Wstęp 2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi a. Wprowadzenie, aspekt psychologiczny, wady statystyki b. Metody graficzne i. Wykres 1.zmiennej ii. Rzut na 2 współrzędne

Bardziej szczegółowo

Data Mining z wykorzystaniem programu Rapid Miner

Data Mining z wykorzystaniem programu Rapid Miner Data Mining z wykorzystaniem programu Rapid Miner Michał Bereta www.michalbereta.pl Program Rapid Miner jest dostępny na stronie: http://rapid-i.com/ Korzystamy z bezpłatnej wersji RapidMiner Community

Bardziej szczegółowo

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy) Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy) Co na dzisiejszym wykładzie: definicje, sposoby wyznaczania i interpretacja STATYSTYK OPISOWYCH prezentacja

Bardziej szczegółowo

Rozkład materiału nauczania

Rozkład materiału nauczania Dział/l.p. Ilość godz. Typ szkoły: TECHNIKUM Zawód: TECHNIK USŁUG FRYZJERSKICH Rok szkolny 2015/2016 Przedmiot: MATEMATYKA Klasa: III 2 godz/tyg 30 = 60 godzin Rozkład materiału nauczania Temat I. LOGARYTMY

Bardziej szczegółowo

Przykład wykorzystania dodatku SOLVER 1 w arkuszu Excel do rozwiązywania zadań programowania matematycznego

Przykład wykorzystania dodatku SOLVER 1 w arkuszu Excel do rozwiązywania zadań programowania matematycznego Przykład wykorzystania dodatku SOLVER 1 w arkuszu Ecel do rozwiązywania zadań programowania matematycznego Firma produkująca samochody zaciągnęła kredyt inwestycyjny w wysokości mln zł na zainstalowanie

Bardziej szczegółowo

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki

Bardziej szczegółowo

Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak

Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak Autor prezentuje spójny obraz najczęściej stosowanych metod statystycznych, dodatkowo omawiając takie

Bardziej szczegółowo

Jakość uczenia i generalizacja

Jakość uczenia i generalizacja Jakość uczenia i generalizacja Dokładność uczenia Jest koncepcją miary w jakim stopniu nasza sieć nauczyła się rozwiązywać określone zadanie Dokładność mówi na ile nauczyliśmy się rozwiązywać zadania które

Bardziej szczegółowo

Dodatek Solver Teoria Dodatek Solver jest częścią zestawu poleceń czasami zwaną narzędziami analizy typu co-jśli (analiza typu co, jeśli?

Dodatek Solver Teoria Dodatek Solver jest częścią zestawu poleceń czasami zwaną narzędziami analizy typu co-jśli (analiza typu co, jeśli? Dodatek Solver Teoria Dodatek Solver jest częścią zestawu poleceń czasami zwaną narzędziami analizy typu co-jśli (analiza typu co, jeśli? : Proces zmieniania wartości w komórkach w celu sprawdzenia, jak

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

Eksploracja danych - wykład II

Eksploracja danych - wykład II - wykład 1/29 wykład - wykład Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Październik 2015 - wykład 2/29 W kontekście odkrywania wiedzy wykład - wykład 3/29 CRISP-DM - standaryzacja

Bardziej szczegółowo

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007 Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja

Bardziej szczegółowo

5.5. Wybieranie informacji z bazy

5.5. Wybieranie informacji z bazy 5.5. Wybieranie informacji z bazy Baza danych to ogromny zbiór informacji, szczególnie jeśli jest odpowiedzialna za przechowywanie danych ogromnych firm lub korporacji. Posiadając tysiące rekordów trudno

Bardziej szczegółowo

ROZWIĄZYWANIE UKŁADÓW RÓWNAŃ NIELINIOWYCH PRZY POMOCY DODATKU SOLVER PROGRAMU MICROSOFT EXCEL. sin x2 (1)

ROZWIĄZYWANIE UKŁADÓW RÓWNAŃ NIELINIOWYCH PRZY POMOCY DODATKU SOLVER PROGRAMU MICROSOFT EXCEL. sin x2 (1) ROZWIĄZYWANIE UKŁADÓW RÓWNAŃ NIELINIOWYCH PRZY POMOCY DODATKU SOLVER PROGRAMU MICROSOFT EXCEL 1. Problem Rozważmy układ dwóch równań z dwiema niewiadomymi (x 1, x 2 ): 1 x1 sin x2 x2 cos x1 (1) Nie jest

Bardziej szczegółowo

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia ZP/ITS/11/2012 Załącznik nr 1a do SIWZ ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych

Bardziej szczegółowo

2.Wstępna analiza danych c.d.- wykład z 5.03.2006 Populacja i próba

2.Wstępna analiza danych c.d.- wykład z 5.03.2006 Populacja i próba 2.Wstępna analiza danych c.d.- wykład z 5.03.2006 Populacja i próba Populacja- zbiorowość skończona lub nieskończona, w stosunku do której mają być formułowane wnioski. Próba- skończony podzbiór populacji

Bardziej szczegółowo

MS Excel od podstaw do analiz biznesowych

MS Excel od podstaw do analiz biznesowych MS Excel od podstaw do analiz biznesowych Opis MS Excel stał się narzędziem praktycznie niezbędnym w dzisiejszym środowisku biznesowym. Potrzeba przygotowywania raportów, zestawień, wyliczeń znalazła swoją

Bardziej szczegółowo

Rozkłady zmiennych losowych

Rozkłady zmiennych losowych Rozkłady zmiennych losowych Wprowadzenie Badamy pewną zbiorowość czyli populację pod względem występowania jakiejś cechy. Pobieramy próbę i na podstawie tej próby wyznaczamy pewne charakterystyki. Jeśli

Bardziej szczegółowo

Zajęcia 1. Statystyki opisowe

Zajęcia 1. Statystyki opisowe Zajęcia 1. Statystyki opisowe 1. Znajdź dane dotyczące liczby mieszkańców w polskich województwach. Dla tych danych oblicz: a) Średnią, b) Medianę, c) Dominantę, d) Wariancję, e) Odchylenie standardowe,

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 1 i 2

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 1 i 2 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 1 i 2 Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW Słowo statystyka pochodzi od łacińskiego słowa status, które oznacza

Bardziej szczegółowo

Planowanie eksperymentu (optymalizacja procesów chemicznych)

Planowanie eksperymentu (optymalizacja procesów chemicznych) Planowanie eksperymentu (optymalizacja procesów chemicznych) dr inż. Agnieszka Gadomska-Gajadhur E-mail: agadomska@ch.pw.edu.pl Lab. Pawilon, nr tel. 34 54 63 Plan wykładu Dlaczego planujemy eksperymenty?

Bardziej szczegółowo

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW ODRZUCANIE WYNIKÓW OJEDYNCZYCH OMIARÓW W praktyce pomiarowej zdarzają się sytuacje gdy jeden z pomiarów odstaje od pozostałych. Jeżeli wykorzystamy fakt, że wyniki pomiarów są zmienną losową opisywaną

Bardziej szczegółowo

ERGODESIGN - Podręcznik użytkownika. Wersja 1.0 Warszawa 2010

ERGODESIGN - Podręcznik użytkownika. Wersja 1.0 Warszawa 2010 ERGODESIGN - Podręcznik użytkownika Wersja 1.0 Warszawa 2010 Spis treści Wstęp...3 Organizacja menu nawigacja...3 Górne menu nawigacyjne...3 Lewe menu robocze...4 Przestrzeń robocza...5 Stopka...5 Obsługa

Bardziej szczegółowo

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu Podstawy baz danych PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych

Bardziej szczegółowo

Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski

Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski : idea Indeksowanie: Drzewo decyzyjne, przeszukiwania binarnego: F = {5, 7, 10, 12, 13, 15, 17, 30, 34, 35, 37, 40, 45, 50, 60} 30 12 40 7 15 35 50 Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski

Bardziej szczegółowo

Alicja Marszałek Różne rodzaje baz danych

Alicja Marszałek Różne rodzaje baz danych Alicja Marszałek Różne rodzaje baz danych Rodzaje baz danych Bazy danych można podzielić wg struktur organizacji danych, których używają. Można podzielić je na: Bazy proste Bazy złożone Bazy proste Bazy

Bardziej szczegółowo