Statystyka w SAS. Data Mining. Krzysztof Glapiak, Mateusz Borsuk, Jakub Gierasimczyk, Arkadiusz Gałecki. 15 czerwca Matematyka Finansowa

Wielkość: px
Rozpocząć pokaz od strony:

Download "Statystyka w SAS. Data Mining. Krzysztof Glapiak, Mateusz Borsuk, Jakub Gierasimczyk, Arkadiusz Gałecki. 15 czerwca Matematyka Finansowa"

Transkrypt

1 Statystyka w SAS Krzysztof Glapiak, Mateusz Borsuk, Jakub Gierasimczyk, Arkadiusz Gałecki Matematyka Finansowa 15 czerwca 2015

2 Plan prezentacji 1 Wstęp - czym jest Sieci neuronowe 6

3 Czym jest? Czym jest Omówienie danych Definicja (eksploracja danych) jest to jeden z etapów procesu odkrywania wiedzy z baz danych (ang. Knowledge Discovery in Databases, KDD). Polega na wykorzystaniu zaawansowanych metod do modelowania relacji w dużych zbiorach danych.

4 Techniki eksploracji danych Czym jest Omówienie danych Techniki eksploracji danych: regresja drzewa decyzyjne sieci neuronowe metody uczenia maszynowego metody ewolucyjne

5 Metody przetwarzania Czym jest Omówienie danych Metody przetwarzania: poszukiwanie asocjacji analiza jakościowa danych analiza ilościowa danych klasyfikacja grupowanie

6 Etapy procesu w SAS Czym jest Omówienie danych Wszystkie omawiane w prezentacji kroki stanowią składowe metodologi SEMMA (Sample, Explore, Modify, Model, Assess), która opisuje całość Data Mining z poziomu narzędzi analitycznych SAS. Jest ona rozumiana jako rozbicie tego procesu na pięć powiązanych ze sobą etapów: 1 Sample - przygotowanie i podział wejściowej próby danych. 2 Explore - eksploracja danych, służąca ocenie ich jakości oraz wstępnej identyfikacji zależności pomiędzy zmiennymi. 3 Modify - modyfikacja danych, służąca poprawie ich jakości, spełnieniu założeń metod modelowania lub zwiększaniu ich elastyczności poprzez transformację zmiennych. 4 Model - modelowanie przy użyciu takich metod jak wspomniane drzewa decyzyjne, regresja czy sieci neuronowe. 5 Assess - ocena jakości budowanych modeli i wybór najlepszego z nich, a następnie monitorowanie jego skuteczności na nowo napływających danych.

7 Import danych Wstęp Czym jest Omówienie danych Po otwarciu nowego projektu w SAS Enterprise Miner Workstation ukazuje nam się okno diagramu, na którym będziemy pracować. Analizować będziemy dane dotyczące kredytobiorców. Aby zaimportować dane należy wybrać Plik Nowy Źródło danych.

8 Import danych Wstęp Czym jest Omówienie danych Pojawia się tabela z atrybutami zmiennych. Analizować będziemy zmienną BAD objaśniającą czy kredytobiorca spłacił pożyczkę, dlatego rolę zmiennej określamy jako Zmienną celu.

9 Wyświetlanie zbioru danych Czym jest Omówienie danych Aby wyświetlić zaimportowany zbiór należy przeciągnąć źródło danych HMEQ z lewego górnego okna na pole diagramu zaznaczyć kafelkę w lewym dolnym oknie nacisnąć [...] obok pola Importowane dane nacisnąć Przegladaj...

10 Rodzaj i rola zmiennych Czym jest Omówienie danych W zakresie ról zmiennych najczęściej wykorzystywanymi są: Wejściowa (Input) - zmienna objaśniająca Zmienna celu (Target) - zmienna objaśniana Odrzucona (Rejected) - nie bierze udziału w analizie ID - identyfikator Dostępne jest pięć skal pomiarowych: Przedziałowa (Interval) - zmienna ciągła Nominalna (Nominal) Porządkowa (Ordinal) Binarna (Binary) Unarna (Unary) - zmienna o jednej wartości

11 Omówienie badanych zmiennych Czym jest Omówienie danych Analizowany zbiór danych przedstawia informację na temat kredytobiorców: BAD - zmienna celu - przyjmuje wartość 1, gdy kredytobiorca nie spłacił kredytu CLADGE - długość trwania najdłuższego z aktywnych zobowiązań kredytowych zaciągniętych przez kredytobiorcę (w miesiącach) CLNO - ilość aktywnych zobowiązań kredytowych DEBTINC - współczynnik zadłużenia do przychodu DELINQ - historyczna liczba zaległości kredytowych DEROG - ilość negatywnych informacji kredytowych JOB - wykonywany zawód LOAN - kwota pozostała do spłaty MORTDUE - kwota do spłaty bieżącej hipoteki NINQ - ilość ostatnio złożonych wniosków kredytowych REASON - przyjmuje wartość DebCon, gdy kredyt jest przeznaczony na konsolidację innego kredytu, wartość HomeImp, gdy jest przeznaczony na zwiększenie wartości hipoteki VALUE - wartość obecna hipoteki YOJ - staż w obecnej pracy (w latach)

12 Węzeł Partycjonowanie Węzeł Partycjonowanie Aby wykonać partycjonowanie przeciągamy ikonę Partycjonowania na pole diagramu łączymy węzeł Zbioru danych z węzłem Partycjonowania uruchamiamy.

13 Podział zbioru Wstęp Węzeł Partycjonowanie Zbiór dzielimy na trzy części: treningowa - służy do zbudowania modelu. Liczność tej próby powinna być pomiędzy 40% a 70% próby wejściowej walidacyjna - służy do porównania różnych modeli między sobą, powinna być między 20% do 30% próby wejściowej testowa - próba używana do ostatecznej oceny modelu wybranego na podstawie danych walidacyjnych, powinna być między 20% do 30% próby wejściowej

14 Metody partycjonowania Węzeł Partycjonowanie Wyróżniamy następujące metody: losowanie warstwowe (Stratified) - pozwala utrzymać rozkład zmiennej objaśnianej w powstających próbach losowanie klastrowe (Cluster) - losowanie proporcjonalne z klastrów wykrytych w badanej populacji prosta próba losowa (Simple random)

15 Węzeł Budowa modelu Współczynnik Giniego Entropia W zakładce Modelowanie wybieramy ikonę i przeciągamy na pole diagramu analogicznie jak w przypadku Partycjonowania łączymy węzeł go z węzłem Partycjonowania.

16 Budowa modelu Współczynnik Giniego Entropia Analiza danych za pomocą drzewa decyzyjnego 1 Wartość zmiennej objaśnianej. 2 Dane treningowe. 3 Dane walidacyjne. 4 Liczba obserwacji. 5 Udział procentowy dla każdej wartości zmiennej objaśnianej.

17 Budowa modelu Współczynnik Giniego Entropia Analiza danych za pomocą drzewa decyzyjnego

18 Wykres klasyfikacji Wstęp Budowa modelu Współczynnik Giniego Entropia Wybieramy Rezultaty Widok Ocena Wykres klasyfikacji.

19 Postać modelu Wstęp Budowa modelu Współczynnik Giniego Entropia Budując model drzewa dokonujemy podziału za pomocą wzoru: Z = Z 0 r i=1 n i n 0 Z i, gdzie Z 0 - stopień niejednorodności dzielonego elementu, n 0 - liczność dzielonego elementu, r - liczba elementów powstających w wyniku podziału, Z i - niejednorodność i-tego elementu powstałego w wyniku podziału, n i - liczność i-tego elementu powstałego w wyniku podziału. Wybieramy ten podział, dla którego różnica Z jest największa.

20 Stopień niejednorodności Budowa modelu Współczynnik Giniego Entropia Stopień niejednorodności (zanieczyszczenia) może być oceniany przy użyciu następujących miar: Współczynnik Giniego Z = 1 k pi 2, gdzie k - liczba kategorii przyjmowanych przez zmienną objaśnianą, p i - odsetek obserwacji przyjmujących i-tą wartość zmiennej objaśnianej. i=1 Współczynnik entropii Z = H(p 1,..., p k ) = k p i log 2 (p i ) i=1

21 Współczynnik Giniego - przykład Rozważmy tabelę z danymi: Budowa modelu Współczynnik Giniego Entropia Chcemy wyznaczyć czy dana osoba należy do grupy wysokiego czy niskiego ryzyka. Atrybutami, względem których możemy podzielić zbiór wejściowy są Wiek oraz Typ samochodu. Możliwe punkty podziału dla wieku to: Wiek 17, Wiek 20, Wiek 23, Wiek 32, Wiek 43, Wiek 68 oraz dla typu samochodu: {sport}, {truck}, {family}. Klasy to Low oraz High.

22 Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Punkt podziału g split dany jest wzorem: m1 + n1 m2 + n2 g split = Z1 + Z2, gdzie m + n m + n m 1, n 1 - liczba elementów w S 1 należących do klas odpowiednio High i Low, m 2, n 2 - liczba elementów w S 2 należących do klas odpowiednio High i Low. W przypadku Wiek 17 mamy: Wartości współczynników Giniego oraz punktu podziału wynoszą: Z 1 = Z(S 1) = Z(Wiek 17) = 1 ( ) = 0, Z 2 = Z(S 2) = Z(Wiek 17) = 1 ((3/5) 2 + (2/5) 2 ) = 0.73, g split = m1 + n1 m + n m2 + n2 Z1 + Z2 = (1/6) 0 + (5/6) 0.73 = 0.61 m + n

23 Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Postępując analogicznie dla kolejnych punktów podziału: Wiek 20, Wiek 23, Wiek 32, Wiek 43, Wiek 68 otrzymamy: Wiek 20, g split = 0.33 Wiek 23, g split = 0.22 Wiek 32, g split = 0.29 Wiek 43, g split = 0.27 Wiek 68, g split = 0.44

24 Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Podobnie postępujemy przy podziale ze względu na typ samochodu. Z(Typ sam {sport}) = 1 ((2/2) ) = 0, Z(Typ sam {family, truck}) = 1 ((2/4) 2 + (2/4) 2 ) = 0.5, g split = (2/6) 0 + (4/6) 0.5 = 0.33, Z(Typ sam {truck}) = 0, Z(Typ sam {family, sport}) = 0.32, g split = (1/6) 0 + (5/6) 0.32 = 0.27, Z(Typ sam {family}) = 0.44, Z(Typ sam {truck, sport}) = 0.44, g split = (3/6) (3/6) 0.44 = 0.44.

25 Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Najmniejsza wartość g split = 0.22 jest przyjmowana w przypadku punktu podziału Wiek 23. Ostatecznie, ze względu na dużą rozpiętość między kolejnymi danymi na temat wieku, punkt podziału ustalamy na g split = ( )/2 = Na skutek takiego podziału dostajemy drzewo postaci: Możemy zauważyć, że w każdym przypadku gdy Wiek 27.5 Ryzyko wpada do klasy High, więc lewa gałąź nie będzie rozwijana - doszliśmy do liścia.

26 Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Podział prawego węzła ze względu na Typ samochodu przebiega analogicznie z uwzględnieniem, że Wiek > 27.5, czyli na danych:

27 Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Ostatecznie drzewo ma postać:

28 Współczynnik entropii Budowa modelu Współczynnik Giniego Entropia Do wyboru atrybutu testowego w wierzchołku drzewa decyzyjnego wykorzystujemy miarę zysku informacyjnego. W tym celu wybieramy atrybut o największej wartości zysku (lub o największej redukcji entropii) Atrybut testowy minimalizuje ilość informacji niezbędnej do klasyfikacji przykładów w partycjach uzyskanych w wyniku podziału

29 Współczynnik entropii Budowa modelu Współczynnik Giniego Entropia Dany jest zbiór przykładów S, zbiór kategorii C i oraz zbiory s i należące do C i. Wartość współczynnika entropii możemy obliczyć przy użyciu poniższego wzoru: Współczynnik entropii m H(s 1,..., s 2) = p i log 2 (p i ), i=1 gdzie: m - liczba różnych wartości przyjmowanych przez zmienną objaśniającą p i = s i - odsetek obserwacji przyjmujących i-tą wartość zmiennej s objaśnianej. UWAGA Przyjmuje się 0 log 2 0 = 0.

30 Entropia Wstęp Budowa modelu Współczynnik Giniego Entropia Entropię podziału zbioru S, ze względu na atrybut A definiujemy następująco: Entropia E(a 1,..., a k ) = k j=1 (s 1j + +s mj ) s H(s 1j,..., s mj ), gdzie: m H(s 1j,..., s mj ) = p ij log 2 (p ij ) i=1 p ij = s ij S j, S j - dana partycja. Im mniejsza wartość entropii, tym mniejsze zanieczyszczenie podziału zbioru S na partycje.

31 Zysk informacyjny Wstęp Budowa modelu Współczynnik Giniego Entropia Zysk informacyjny, wynikający z podziału zbioru S, ze względu na atrybut A, definiujemy: Zysk informacyjny Gain(A) = H(s 1,..., s m) E(A).

32 Przykład Wstęp Budowa modelu Współczynnik Giniego Entropia Jako atrybut decyzyjny przyjmujemy kupi komputer.

33 Przykład Wstęp Budowa modelu Współczynnik Giniego Entropia Atrybut kupi komputer posiada dwie wartości: tak i nie, stąd otrzymujemy dwie klasy: C 1 - odpowiada wartości tak i zawiera s 1 = 9 elementów C 2 - odpowiada wartości nie i zawiera s 2 = 5 elementów Otrzymujemy: H(s 1, s 2) = H(9, 5) = 9 14 log log = 0.94.

34 Budowa modelu Współczynnik Giniego Entropia Kolejnym krokiem jest obliczenie entropii każdego atrybutu testowego. Pierwszym będzie wiek, który składa się z 3 partycji. wiek= 30 s 11 = 2 s 21 = 3 H(s 11, s 21) = wiek= s 12 = 4 s 22 = 0 H(s 12, s 22) = 0. wiek= >40 s 13 = 2 s 23 = 3 H(s 13, s 23) =

35 Budowa modelu Współczynnik Giniego Entropia Entropia atrybutu wiek wynosi: E( wiek ) = H(s11, s21) + H(s12, s22) + H(s13, s23) = Zysk informacyjny wynikający z podziału zbioru S, ze względu na atrybut wiek wynosi: Gain( wiek ) = I (s 1, s 2) E( wiek ) = = 0.277

36 Budowa modelu Współczynnik Giniego Entropia Analogicznie postępujemy z pozostałymi atrybutami. W ten sposób otrzymujemy: Zysk informacyjny wszystkich atrybutów Gain( wiek ) = Gain( dochód )= Gain( student ) = Gain( status ) = Jako pierwszy atrybut testowy wybieramy ten z największym zyskiem informacyjnym, w tym przypadku wiek.

37 Budowa modelu Współczynnik Giniego Entropia Tworzymy wierzchołek o etykiecie wiek oraz łuki wychodzące łączące wierzchołek wiek z wierzchołkami odpowiadającymi partycjom utworzonym zgodnie z podziałem zbioru S wg atrybutu wiek.

38 Budowa modelu Współczynnik Giniego Entropia Postępując analogicznie dla wierzchołków S 1 oraz S 3, okazuje się, że najlepszym atrybutem testowym dla wierzchołka odpowiadającym dla pierwszej partycji jest atrybut student, a dla trzeciej partycji - atrybut status. Ostateczny kształt drzewa decyzyjnego przedstawiono na rysunku poniżej.

39 Przygotowanie danych Węzeł Imputacja Węzeł Aby wykonać regresję należy uzupełnić braki danych. W tym celu posłużymy się węzłem Imputacja. Wybrać zakładkę Modyfikacja Imputacja, przeciągnąć na pole diagramu oraz połączyć z węzłem Partycjonowanie.

40 Metody uzupełniania danych Węzeł Imputacja Węzeł Spośród metod uzupełniania danych są między innymi: Dominanta Średnia Mediana Wartość wylosowana zgodnie z rozkładem Wartość uzyskana na podstawie drzewa decyzyjnego

41 Węzeł Imputacja Węzeł W zakładce Modelowanie wybieramy przeciągamy na pole diagramu i łączymy z węzłem Imputacja. Dodatkowo z naszego modelu regresji wyrzucamy zmienne tekstowe. W tym celu klikamy prawym przyciskiem na węzeł Edytuj zmienne dla zmiennych IMP JOB oraz IMP REASON wybieramy w kolumnie użyj - Nie.

42 Węzeł Imputacja Węzeł

43 Węzeł Imputacja Węzeł Wykres efektów pokazuje wartości współczynników regresji. Zaznaczone są osobnymi kolorami współczynniki dodatnie i ujemne. Dodatkowo po zaznaczeniu okna wykresu, klikając w lewym górnym rogu na ikonę Tabela wyświetlają się rezultaty z dokładnymi watościami współczynników oraz test istotności dla parametrów.

44 Postać modelu Wstęp Węzeł Imputacja Węzeł W naszym przypadku jako funkcji łączącej (link function) użyliśmy funkcji logitowej. Zatem wartość oczekiwana w naszym modelu przyjmuje postać: G(E(BAD)) = k a i X i, gdzie k - liczba zmiennych, i=1 a i - wartość współczynnika, x i - wartość zmiennej, funkcja G(x) = log( x 1 x ).

45 Czym jest sieć neuronowa? Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach Sieci neuronowe w założeniu są to obiekty, które swoim działaniem naśladują aktywność rzeczywistych układów nerwowych. Poniżej jest przedstawiony prosty model regresyjny w postaci sieci neuronowej. Warstwa wejściowa zawiera n neuronów (odpowiadających zmiennym) oraz warstwę wyjściową sumującą ważone impulsy i transformującą je do skali oryginalnej zmiennej Y.

46 Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach Podstawowym rozszerzeniem tak opisanej architektury jest model perceptronu wielowarstwowego (MLP - Multi Layer Perceptron), który dodatkowo zawiera warstwę ukrytą. Składa się ona z określonej ilości neuronów, które nieliniowo przekształcają kombinację liniową otrzymanych sygnałów. Pojedynczy neuron z warstwy ukrytej składa się z dwóch elementów: sumatora i funkcji aktywacji. Pierwszy z nich dokonuje sumowania ważonych sygnałów z warstwy wejściowej oraz wyrazu wolnego, drugi tak otrzymaną sumę przekształca przy użyciu określonej funkcji ciągłej.

47 Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach Schemat sieci neuronowej z jedną warstwą ukrytą zawierającą n neuronów. Model opisany dla m zmiennych objaśniających

48 Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach W zakładce Modelowanie wybieramy Sieć neuronowa przeciągamy na pole diagramu i łączymy z węzłem Imputacja w lewym dolnym oknie wybieramy przycisk [...] w wierszu Sieć ustawiamy Liczbę jednostek ukrytych na 20.

49 Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach Wykres klasyfikacji.

50 Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach W Rezultatach wybieramy Widok Model Wagi końcowe.

51 Przetwarzanie informacji w neuronach Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach Pobudzeniem neuronu p domyślnie jest liniowa funkcja sygnałów wejściowych z wagami połączeń jako współczynnikami (combination function). gdzie x i - wartość zmiennej w i - waga zmiennej. p = n w i x i, i=1 Sygnał wyjściowy y jest zależny od całkowitego pobudzenia neuronu, transformowanego przez funkcję aktywacji. Pozwala to wprowadzić nieliniowość. y = f (p) = f ( n w i x i ) i=1

52 Węzeł porównanie modeli Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli W zakładce Ocena wybieramy Porównanie modeli przeciągamy na pole diagramu i łączymy z węzłami wszystkich prezentowanych metod.

53 Statystyki dopasowania Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Dopasowanie modelu może być ocenione przy użyciu różnych statystyk. Przykładowe to: Skuteczność klasyfikacji Błąd średniokwadratowy (ASE) ASE = 1 n n (yi y i ) 2 Statystyka Kołmogorowa-Smirnowa KS = max{t : F 1(t) F 0(t) } Indeks ROC Wzrost (lift) i=1

54 Porównanie modeli Wstęp Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Krzywe ROC dla trzech modeli dla każdej partycji. Miarą dopasowania jest pole pod wykresem - im wartość bliższa 1 tym lepiej dopasowany model.

55 Krzywa ROC - przykład Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli W badaniach dopasowania zmiennej binarnej korzysta się z takich miar jak specyficzność i wrażliwość. Załóżmy, że przeprowadzamy test na HIV. W populacji są osoby zdrowe oraz chore. Osoby zarażone oznaczymy y i = 1. Jeśli nasz test wskaże, że osoba jest chora oznaczymy ŷ i = 1, a gdy zdrowa ŷ i = 0 Wrażliwość (czułość) jest to prawdopodobieństwo, że chorą osobę test zakwalifikuje jako rzeczywiście chorą P(ŷ i = 1 y i = 1) w przybliżeniu jest to udział osób, które są chore i u których test wyszedł poprawnie spośród wszystkich chorych osób. P(ŷ i = 1 y i = 1) n 11 n 11 +n 01 Wrażliwość to true positive. Specyficzność (swoistość) jest to prawdopodobieństwo, że zdrową osobę test zakwalifikuje jako rzeczywiście zdrową P(ŷ i = 0 y i = 0) w przybliżeniu jest to udział osób, które są zdrowe i u których test wyszedł poprawnie spośród wszystkich zdrowych osób. P(ŷ i = 0 y i = 0) n 00 n 00 +n 10 Wrażliwość to true negative.

56 Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Na wykresie krzywej ROC na jednej osi odkłada się wrażliwość, a na drugiej 1-specyficzność. 1-specyficzność to udział osób, które są zdrowe ale test wykazał, że są chore P(ŷ i = 1 y i = 0) = 1 P(ŷ i = 0 y i = 0). 1-specyficzność to false positives. Zatem krzywa ROC obrazuje stosunek true positives do false positives. W przypadku idealnego modelu krzywa ROC przedstawia lewą i górną krawędź. Jeśli losowo byśmy podawali wyniki testu to krzywa byłaby przekątną kwadratu. Natomiast krzywa leżąca pod przekątną oznacza, że lepsze prognozy uzyskalibyśmy gdybyśmy losowo mówili osobom czy są chore czy nie, niż przeprowadzali test. Dlatego używa się pola pod krzywą ROC jako miary dopasowania.

57 Wykres liftu łącznego Wstęp Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Wykres przyrostu pokazuje o ile częściej niż w danych źródłowych przewidywana klasa występuje w próbie wskazanej przez dany model. Uzyskana w ten sposób krzywa powinna gładko spadać od największej wartości do 1. Gwałtowne skoki w górę sugerują, że model jest nieodpowiedni (oznaczają one, że model niezgodnie z rzeczywistością przewiduje szansę przynależności do klasy: tam gdzie wg modelu jest ona mniejsza, w rzeczywistości jest większa).

58 Statystyki dopasowania Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Na podstawie przedstawionych poniżej kryteriów najlepszym modelem jest drzewo decyzyjne.

59 Instalacja i uruchomienie. Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Ze względu na często niepoprawną instalację, Miner niekiedy nie działa. Dokładną instrukcję instalacji można znaleźć pod linkiem: pl/support/dokumenty.html Włączając Minera należy uruchomić go jako Administrator.

Data mining. Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska. 14 czerwca 2018

Data mining. Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska. 14 czerwca 2018 Data mining Maciej Jędrzejczyk Paulina Konecka Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska 14 czerwca 2018 Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 1

Bardziej szczegółowo

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT

Bardziej szczegółowo

Drzewa decyzyjne w SAS Enterprise Miner

Drzewa decyzyjne w SAS Enterprise Miner Drzewa decyzyjne w SAS Enterprise Miner Aneta Ptak-Chmielewska Instytut Statystyki i Demografii Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych www.sgh.waw.pl/zaklady/zahziaw 1 struktura ćwiczeń

Bardziej szczegółowo

Data Mining. Statystyka w SAS. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 1 / 98

Data Mining. Statystyka w SAS. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 1 / 98 Data Mining Klaudia Malinowska Simona Pikuła Statystyka w SAS Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 1 / 98 Plan prezentacji 1 Data Mining-co to jest? 2 Metodologia SEMMA 3 Analiza

Bardziej szczegółowo

Eksploracja danych. Definicja (Eksploracja danych)

Eksploracja danych. Definicja (Eksploracja danych) Data mining Stefania Wietrzykowska, Piotr Lebiedź Politechnika Gdańska Wydział Fizyki Technicznej i Matematyki Stosowanej 11 czerwca 2017 tefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data

Bardziej szczegółowo

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2 Klasyfikacja Indeks Gini Zysk informacyjny Klasyfikacja wykład 2 Kontynuujemy prezentacje metod klasyfikacji. Na wykładzie zostaną przedstawione dwa podstawowe algorytmy klasyfikacji oparte o indukcję

Bardziej szczegółowo

Projekt Sieci neuronowe

Projekt Sieci neuronowe Projekt Sieci neuronowe Chmielecka Katarzyna Gr. 9 IiE 1. Problem i dane Sieć neuronowa miała za zadanie nauczyć się klasyfikować wnioski kredytowe. W projekcie wykorzystano dane pochodzące z 110 wniosków

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

ALGORYTMY SZTUCZNEJ INTELIGENCJI

ALGORYTMY SZTUCZNEJ INTELIGENCJI ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.

Bardziej szczegółowo

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta Stan dotychczasowy OCENA KLASYFIKACJI w diagnostyce Wybraliśmy metodę uczenia maszynowego (np. sieć neuronowa lub drzewo decyzyjne), która będzie klasyfikować nieznane przypadki Na podzbiorze dostępnych

Bardziej szczegółowo

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015 Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Sieci neuronowe Sieci neuronowe w SAS Enterprise Miner Węzeł Neural Network Do

Bardziej szczegółowo

Indukowane Reguły Decyzyjne I. Wykład 8

Indukowane Reguły Decyzyjne I. Wykład 8 Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015 Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Sieci Kohonena Sieci Kohonena Sieci Kohonena zostały wprowadzone w 1982 przez fińskiego

Bardziej szczegółowo

Laboratorium 4. Naiwny klasyfikator Bayesa.

Laboratorium 4. Naiwny klasyfikator Bayesa. Laboratorium 4 Naiwny klasyfikator Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk

Bardziej szczegółowo

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) 1. Opis problemu - ocena końcowa projektu Projekt jako nowe, nietypowe przedsięwzięcie wymaga właściwego zarządzania. Podjęcie się realizacji

Bardziej szczegółowo

Sieci neuronowe w Statistica

Sieci neuronowe w Statistica http://usnet.us.edu.pl/uslugi-sieciowe/oprogramowanie-w-usk-usnet/oprogramowaniestatystyczne/ Sieci neuronowe w Statistica Agnieszka Nowak - Brzezińska Podstawowym elementem składowym sztucznej sieci neuronowej

Bardziej szczegółowo

Przykład Rezygnacja z usług operatora

Przykład Rezygnacja z usług operatora Przykład Rezygnacja z usług operatora Zbiór CHURN Zbiór zawiera dane o 3333 klientach firmy telefonicznej razem ze wskazaniem, czy zrezygnowali z usług tej firmy Dane pochodzą z UCI Repository of Machine

Bardziej szczegółowo

Laboratorium 6. Indukcja drzew decyzyjnych.

Laboratorium 6. Indukcja drzew decyzyjnych. Laboratorium 6 Indukcja drzew decyzyjnych. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk

Bardziej szczegółowo

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska Sieci neuronowe w Statistica Agnieszka Nowak - Brzezioska Podstawowym elementem składowym sztucznej sieci neuronowej jest element przetwarzający neuron. Schemat działania neuronu: x1 x2 w1 w2 Dendrites

Bardziej szczegółowo

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego

Bardziej szczegółowo

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów. ANALIZA SKUPIEŃ Metoda k-means I. Cel zadania Zadaniem jest analiza zbioru danych, gdzie zmiennymi są poziomy ekspresji genów. Podczas badań pobrano próbki DNA od 36 różnych pacjentów z chorobą nowotworową.

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia

Bardziej szczegółowo

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący

Bardziej szczegółowo

Systemy uczące się wykład 2

Systemy uczące się wykład 2 Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania

Bardziej szczegółowo

Wprowadzenie do analizy dyskryminacyjnej

Wprowadzenie do analizy dyskryminacyjnej Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela

Bardziej szczegółowo

Wprowadzenie do uczenia maszynowego

Wprowadzenie do uczenia maszynowego Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 12 stycznia 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania

Bardziej szczegółowo

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera

Bardziej szczegółowo

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej LABORATORIUM 3 Przygotowanie pliku (nazwy zmiennych, export plików.xlsx, selekcja przypadków); Graficzna prezentacja danych: Histogramy (skategoryzowane) i 3-wymiarowe; Wykresy ramka wąsy; Wykresy powierzchniowe;

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE Temat: Sztuczne Sieci Neuronowe Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE Dr inż. Barbara Mrzygłód KISiM, WIMiIP, AGH mrzyglod@ agh.edu.pl 1 Wprowadzenie Sztuczne sieci neuronowe

Bardziej szczegółowo

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. TESTY NIEPARAMETRYCZNE 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. Standardowe testy równości średnich wymagają aby badane zmienne losowe

Bardziej szczegółowo

Indukowane Reguły Decyzyjne I. Wykład 3

Indukowane Reguły Decyzyjne I. Wykład 3 Indukowane Reguły Decyzyjne I Wykład 3 IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 2 Powtórzenie

Bardziej szczegółowo

Jak korzystać z Excela?

Jak korzystać z Excela? 1 Jak korzystać z Excela? 1. Dane liczbowe, wprowadzone (zaimportowane) do arkusza kalkulacyjnego w Excelu mogą przyjmować różne kategorie, np. ogólne, liczbowe, walutowe, księgowe, naukowe, itd. Jeśli

Bardziej szczegółowo

Regresja linearyzowalna

Regresja linearyzowalna 1 z 5 2007-05-09 23:22 Medycyna Praktyczna - portal dla lekarzy Regresja linearyzowalna mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie Data utworzenia:

Bardziej szczegółowo

Badanie zależności skala nominalna

Badanie zależności skala nominalna Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

Jedną z ciekawych funkcjonalności NOLa jest możliwość dokonywania analizy technicznej na wykresach, które mogą być otwierane z poziomu okna notowań:

Jedną z ciekawych funkcjonalności NOLa jest możliwość dokonywania analizy technicznej na wykresach, które mogą być otwierane z poziomu okna notowań: Wykresy w NOLu Jedną z ciekawych funkcjonalności NOLa jest możliwość dokonywania analizy technicznej na wykresach, które mogą być otwierane z poziomu okna notowań: Po naciśnięciu F2 otwiera się nowe okno,

Bardziej szczegółowo

Ćwiczenie 12. Metody eksploracji danych

Ćwiczenie 12. Metody eksploracji danych Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych

Bardziej szczegółowo

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Paweł Cibis pawel@cibis.pl 23 lutego 2007 1 Regresja liniowa 2 wzory funkcje 3 Korelacja liniowa

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

MODELE LINIOWE. Dr Wioleta Drobik

MODELE LINIOWE. Dr Wioleta Drobik MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą

Bardziej szczegółowo

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego Łukasz Kończyk WMS AGH Plan prezentacji Model regresji liniowej Uogólniony model liniowy (GLM) Ryzyko ubezpieczeniowe Przykład

Bardziej szczegółowo

Dokumentacja Końcowa

Dokumentacja Końcowa Metody Sztucznej Inteligencji 2 Projekt Prognozowanie kierunku ruchu indeksów giełdowych na podstawie danych historycznych. Dokumentacja Końcowa Autorzy: Robert Wojciechowski Michał Denkiewicz Wstęp Celem

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład III bogumil.konopka@pwr.edu.pl 2016/2017 Wykład III - plan Regresja logistyczna Ocena skuteczności klasyfikacji Macierze pomyłek Krzywe

Bardziej szczegółowo

Regresja logistyczna (LOGISTIC)

Regresja logistyczna (LOGISTIC) Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim

Bardziej szczegółowo

Data Mining Wykład 4. Plan wykładu

Data Mining Wykład 4. Plan wykładu Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu

Bardziej szczegółowo

Ekonometria. Regresja liniowa, dobór postaci analitycznej, transformacja liniowa. Paweł Cibis 24 marca 2007

Ekonometria. Regresja liniowa, dobór postaci analitycznej, transformacja liniowa. Paweł Cibis 24 marca 2007 Regresja liniowa, dobór postaci analitycznej, transformacja liniowa Paweł Cibis pawel@cibis.pl 24 marca 2007 1 Regresja liniowa 2 Metoda aprioryczna Metoda heurystyczna Metoda oceny wzrokowej rozrzutu

Bardziej szczegółowo

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k. Funkcje wymierne Jerzy Rutkowski Teoria Przypomnijmy, że przez R[x] oznaczamy zbiór wszystkich wielomianów zmiennej x i o współczynnikach rzeczywistych Definicja Funkcją wymierną jednej zmiennej nazywamy

Bardziej szczegółowo

Analiza zależności liniowych

Analiza zależności liniowych Narzędzie do ustalenia, które zmienne są ważne dla Inwestora Analiza zależności liniowych Identyfikuje siłę i kierunek powiązania pomiędzy zmiennymi Umożliwia wybór zmiennych wpływających na giełdę Ustala

Bardziej szczegółowo

Tworzenie szablonów użytkownika

Tworzenie szablonów użytkownika Poradnik Inżyniera Nr 40 Aktualizacja: 12/2018 Tworzenie szablonów użytkownika Program: Plik powiązany: Stratygrafia 3D - karty otworów Demo_manual_40.gsg Głównym celem niniejszego Przewodnika Inżyniera

Bardziej szczegółowo

Ćwiczenie 6. Transformacje skali szarości obrazów

Ćwiczenie 6. Transformacje skali szarości obrazów Politechnika Wrocławska Wydział Elektroniki Mikrosystemów i Fotoniki Przetwarzanie sygnałów laboratorium ETD5067L Ćwiczenie 6. Transformacje skali szarości obrazów 1. Obraz cyfrowy Obraz w postaci cyfrowej

Bardziej szczegółowo

Wydział Matematyki. Testy zgodności. Wykład 03

Wydział Matematyki. Testy zgodności. Wykład 03 Wydział Matematyki Testy zgodności Wykład 03 Testy zgodności W testach zgodności badamy postać rozkładu teoretycznego zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy

Bardziej szczegółowo

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem

Bardziej szczegółowo

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0 Uczenie się pojedynczego neuronu W0 X0=1 W1 x1 W2 s f y x2 Wp xp p x i w i=x w+wo i=0 Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z=0 Wówczas: W 1 x 1 + w 2 x 2 + = 0 Algorytm

Bardziej szczegółowo

Algorytm grupowania danych typu kwantyzacji wektorów

Algorytm grupowania danych typu kwantyzacji wektorów Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych

Bardziej szczegółowo

Próba własności i parametry

Próba własności i parametry Próba własności i parametry Podstawowe pojęcia Zbiorowość statystyczna zbiór jednostek (obserwacji) nie identycznych, ale stanowiących logiczną całość Zbiorowość (populacja) generalna skończony lub nieskończony

Bardziej szczegółowo

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych

Bardziej szczegółowo

PRÓBNY EGZAMIN MATURALNY Z MATEMATYKI

PRÓBNY EGZAMIN MATURALNY Z MATEMATYKI PRÓBNY EGZAMIN MATURALNY Z MATEMATYKI PRZED MATURĄ MAJ 2016 POZIOM PODSTAWOWY Instrukcja dla zdającego 1. Sprawdź, czy arkusz egzaminacyjny zawiera 14 stron (zadania 1 31). 2. Rozwiązania zadań wpisuj

Bardziej szczegółowo

Rozkład materiału nauczania

Rozkład materiału nauczania Dział/l.p. Ilość godz. Typ szkoły: TECHNIKUM Zawód: TECHNIK USŁUG FRYZJERSKICH Rok szkolny 2017/2018 Przedmiot: MATEMATYKA Klasa: III 60 godzin numer programu T5/O/5/12 Rozkład materiału nauczania Temat

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa, Andrzej Rutkowski Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2018-10-15 Projekt

Bardziej szczegółowo

4. Średnia i autoregresja zmiennej prognozowanej

4. Średnia i autoregresja zmiennej prognozowanej 4. Średnia i autoregresja zmiennej prognozowanej 1. Średnia w próbie uczącej Własności: y = y = 1 N y = y t = 1, 2, T s = s = 1 N 1 y y R = 0 v = s 1 +, 2. Przykład. Miesięczna sprzedaż żelazek (szt.)

Bardziej szczegółowo

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy Załącznik nr 4 do Uchwały Senatu nr 430/01/2015 SYLABUS Dotyczy cyklu kształcenia 2014-2018 Realizacja w roku akademickim 2016/2017 1.1. PODSTAWOWE INFORMACJE O PRZEDMIOCIE/MODULE Nazwa przedmiotu/ modułu

Bardziej szczegółowo

WYMAGANIA Z MATEMATYKI NA POSZCZEGÓLNE OCENY KLASYFIKACYJNE DLA UCZNIÓW KLAS TRZECICH. Sposoby sprawdzania wiedzy i umiejętności uczniów

WYMAGANIA Z MATEMATYKI NA POSZCZEGÓLNE OCENY KLASYFIKACYJNE DLA UCZNIÓW KLAS TRZECICH. Sposoby sprawdzania wiedzy i umiejętności uczniów WYMAGANIA Z MATEMATYKI NA POSZCZEGÓLNE OCENY KLASYFIKACYJNE DLA UCZNIÓW KLAS TRZECICH Sposoby sprawdzania wiedzy i umiejętności uczniów 1. Odpowiedzi ustne. 2. Sprawdziany pisemne. 3. Kartkówki. 4. Testy.

Bardziej szczegółowo

5. Model sezonowości i autoregresji zmiennej prognozowanej

5. Model sezonowości i autoregresji zmiennej prognozowanej 5. Model sezonowości i autoregresji zmiennej prognozowanej 1. Model Sezonowości kwartalnej i autoregresji zmiennej prognozowanej (rząd istotnej autokorelacji K = 1) Szacowana postać: y = c Q + ρ y, t =

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Ć w i c z e n i e 3 : W i z u a l i z a c j a d a n y c h - w y k r e s y S t r o n a 1

Ć w i c z e n i e 3 : W i z u a l i z a c j a d a n y c h - w y k r e s y S t r o n a 1 Ć w i c z e n i e 3 : W i z u a l i z a c j a d a n y c h - w y k r e s y S t r o n a 1 Zadanie 1. Tworzenie wykresów zmiennych jakościowych wyrażonych w skali nominalnej i porządkowej. Utworzyć wykres

Bardziej szczegółowo

1. Opis okna podstawowego programu TPrezenter.

1. Opis okna podstawowego programu TPrezenter. OPIS PROGRAMU TPREZENTER. Program TPrezenter przeznaczony jest do pełnej graficznej prezentacji danych bieżących lub archiwalnych dla systemów serii AL154. Umożliwia wygodną i dokładną analizę na monitorze

Bardziej szczegółowo

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych Regresja logistyczna i jej zastosowanie Model regresji logistycznej jest budowany za pomocą klasy Logistic programu WEKA. Jako danych wejściowych

Bardziej szczegółowo

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

Katalog wymagań na poszczególne stopnie szkolne klasa 3

Katalog wymagań na poszczególne stopnie szkolne klasa 3 Katalog wymagań na poszczególne stopnie szkolne klasa 3 I. GRANIASTOSŁUPY I OSTROSŁUPY 6 5 4 3 2 Wskazuje wśród wielościanów graniastosłupy proste i pochyłe. Wskazuje na modelu lub rysunku krawędzie, wierzchołki,

Bardziej szczegółowo

Dopasowywanie modelu do danych

Dopasowywanie modelu do danych Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;

Bardziej szczegółowo

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Cel projektu Celem projektu jest przygotowanie systemu wnioskowania, wykorzystującego wybrane algorytmy sztucznej inteligencji; Nabycie

Bardziej szczegółowo

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji, współczynnik korelacji wielorakiej. Paweł Cibis

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji, współczynnik korelacji wielorakiej. Paweł Cibis Regresja liniowa, współczynnik zmienności, współczynnik korelacji, współczynnik korelacji wielorakiej Paweł Cibis pcibis@o2.pl 9 marca 2006 1 Regresja liniowa 2 wzory funkcje 3 Korelacja liniowa wzory

Bardziej szczegółowo

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00±0,20)

Bardziej szczegółowo

Wykład 4 Związki i zależności

Wykład 4 Związki i zależności Wykład 4 Związki i zależności Rozważmy: Dane z dwiema lub więcej zmiennymi Zagadnienia do omówienia: Zmienne objaśniające i zmienne odpowiedzi Wykres punktowy Korelacja Prosta regresji Słownictwo: Zmienna

Bardziej szczegółowo

Drzewa decyzyjne i lasy losowe

Drzewa decyzyjne i lasy losowe Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM

Bardziej szczegółowo

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć: Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).

Bardziej szczegółowo

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Jednym z elementów walidacji metod pomiarowych jest sprawdzenie liniowości

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

Moduł Handlowo-Magazynowy Przeprowadzanie inwentaryzacji z użyciem kolektorów danych

Moduł Handlowo-Magazynowy Przeprowadzanie inwentaryzacji z użyciem kolektorów danych Moduł Handlowo-Magazynowy Przeprowadzanie inwentaryzacji z użyciem kolektorów danych Wersja 3.77.320 29.10.2014 r. Poniższa instrukcja ma zastosowanie, w przypadku gdy w menu System Konfiguracja Ustawienia

Bardziej szczegółowo

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) 1. Opis problemu - ocena końcowa projektu Projekt jako nowe, nietypowe przedsięwzięcie wymaga właściwego zarządzania. Podjęcie się realizacji

Bardziej szczegółowo

Monte Carlo, bootstrap, jacknife

Monte Carlo, bootstrap, jacknife Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział

Bardziej szczegółowo

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007 Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja

Bardziej szczegółowo

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS Modelowanie Data Mining na wielką skalę z SAS Factory Miner Paweł Plewka, SAS Wstęp SAS Factory Miner Nowe narzędzie do data mining - dostępne od połowy 2015 r. Aktualna wersja - 14.1 Interfejs webowy

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

Metody Sztucznej Inteligencji II

Metody Sztucznej Inteligencji II 17 marca 2013 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką, która jest w stanie odbierać i przekazywać sygnały elektryczne. Neuron działanie Jeżeli wartość sygnału

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

Wojciech Skwirz

Wojciech Skwirz 1 Regularyzacja jako metoda doboru zmiennych objaśniających do modelu statystycznego. 2 Plan prezentacji 1. Wstęp 2. Część teoretyczna - Algorytm podziału i ograniczeń - Regularyzacja 3. Opis wyników badania

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo