Statystyka w SAS. Data Mining. Krzysztof Glapiak, Mateusz Borsuk, Jakub Gierasimczyk, Arkadiusz Gałecki. 15 czerwca Matematyka Finansowa
|
|
- Łucja Olszewska
- 7 lat temu
- Przeglądów:
Transkrypt
1 Statystyka w SAS Krzysztof Glapiak, Mateusz Borsuk, Jakub Gierasimczyk, Arkadiusz Gałecki Matematyka Finansowa 15 czerwca 2015
2 Plan prezentacji 1 Wstęp - czym jest Sieci neuronowe 6
3 Czym jest? Czym jest Omówienie danych Definicja (eksploracja danych) jest to jeden z etapów procesu odkrywania wiedzy z baz danych (ang. Knowledge Discovery in Databases, KDD). Polega na wykorzystaniu zaawansowanych metod do modelowania relacji w dużych zbiorach danych.
4 Techniki eksploracji danych Czym jest Omówienie danych Techniki eksploracji danych: regresja drzewa decyzyjne sieci neuronowe metody uczenia maszynowego metody ewolucyjne
5 Metody przetwarzania Czym jest Omówienie danych Metody przetwarzania: poszukiwanie asocjacji analiza jakościowa danych analiza ilościowa danych klasyfikacja grupowanie
6 Etapy procesu w SAS Czym jest Omówienie danych Wszystkie omawiane w prezentacji kroki stanowią składowe metodologi SEMMA (Sample, Explore, Modify, Model, Assess), która opisuje całość Data Mining z poziomu narzędzi analitycznych SAS. Jest ona rozumiana jako rozbicie tego procesu na pięć powiązanych ze sobą etapów: 1 Sample - przygotowanie i podział wejściowej próby danych. 2 Explore - eksploracja danych, służąca ocenie ich jakości oraz wstępnej identyfikacji zależności pomiędzy zmiennymi. 3 Modify - modyfikacja danych, służąca poprawie ich jakości, spełnieniu założeń metod modelowania lub zwiększaniu ich elastyczności poprzez transformację zmiennych. 4 Model - modelowanie przy użyciu takich metod jak wspomniane drzewa decyzyjne, regresja czy sieci neuronowe. 5 Assess - ocena jakości budowanych modeli i wybór najlepszego z nich, a następnie monitorowanie jego skuteczności na nowo napływających danych.
7 Import danych Wstęp Czym jest Omówienie danych Po otwarciu nowego projektu w SAS Enterprise Miner Workstation ukazuje nam się okno diagramu, na którym będziemy pracować. Analizować będziemy dane dotyczące kredytobiorców. Aby zaimportować dane należy wybrać Plik Nowy Źródło danych.
8 Import danych Wstęp Czym jest Omówienie danych Pojawia się tabela z atrybutami zmiennych. Analizować będziemy zmienną BAD objaśniającą czy kredytobiorca spłacił pożyczkę, dlatego rolę zmiennej określamy jako Zmienną celu.
9 Wyświetlanie zbioru danych Czym jest Omówienie danych Aby wyświetlić zaimportowany zbiór należy przeciągnąć źródło danych HMEQ z lewego górnego okna na pole diagramu zaznaczyć kafelkę w lewym dolnym oknie nacisnąć [...] obok pola Importowane dane nacisnąć Przegladaj...
10 Rodzaj i rola zmiennych Czym jest Omówienie danych W zakresie ról zmiennych najczęściej wykorzystywanymi są: Wejściowa (Input) - zmienna objaśniająca Zmienna celu (Target) - zmienna objaśniana Odrzucona (Rejected) - nie bierze udziału w analizie ID - identyfikator Dostępne jest pięć skal pomiarowych: Przedziałowa (Interval) - zmienna ciągła Nominalna (Nominal) Porządkowa (Ordinal) Binarna (Binary) Unarna (Unary) - zmienna o jednej wartości
11 Omówienie badanych zmiennych Czym jest Omówienie danych Analizowany zbiór danych przedstawia informację na temat kredytobiorców: BAD - zmienna celu - przyjmuje wartość 1, gdy kredytobiorca nie spłacił kredytu CLADGE - długość trwania najdłuższego z aktywnych zobowiązań kredytowych zaciągniętych przez kredytobiorcę (w miesiącach) CLNO - ilość aktywnych zobowiązań kredytowych DEBTINC - współczynnik zadłużenia do przychodu DELINQ - historyczna liczba zaległości kredytowych DEROG - ilość negatywnych informacji kredytowych JOB - wykonywany zawód LOAN - kwota pozostała do spłaty MORTDUE - kwota do spłaty bieżącej hipoteki NINQ - ilość ostatnio złożonych wniosków kredytowych REASON - przyjmuje wartość DebCon, gdy kredyt jest przeznaczony na konsolidację innego kredytu, wartość HomeImp, gdy jest przeznaczony na zwiększenie wartości hipoteki VALUE - wartość obecna hipoteki YOJ - staż w obecnej pracy (w latach)
12 Węzeł Partycjonowanie Węzeł Partycjonowanie Aby wykonać partycjonowanie przeciągamy ikonę Partycjonowania na pole diagramu łączymy węzeł Zbioru danych z węzłem Partycjonowania uruchamiamy.
13 Podział zbioru Wstęp Węzeł Partycjonowanie Zbiór dzielimy na trzy części: treningowa - służy do zbudowania modelu. Liczność tej próby powinna być pomiędzy 40% a 70% próby wejściowej walidacyjna - służy do porównania różnych modeli między sobą, powinna być między 20% do 30% próby wejściowej testowa - próba używana do ostatecznej oceny modelu wybranego na podstawie danych walidacyjnych, powinna być między 20% do 30% próby wejściowej
14 Metody partycjonowania Węzeł Partycjonowanie Wyróżniamy następujące metody: losowanie warstwowe (Stratified) - pozwala utrzymać rozkład zmiennej objaśnianej w powstających próbach losowanie klastrowe (Cluster) - losowanie proporcjonalne z klastrów wykrytych w badanej populacji prosta próba losowa (Simple random)
15 Węzeł Budowa modelu Współczynnik Giniego Entropia W zakładce Modelowanie wybieramy ikonę i przeciągamy na pole diagramu analogicznie jak w przypadku Partycjonowania łączymy węzeł go z węzłem Partycjonowania.
16 Budowa modelu Współczynnik Giniego Entropia Analiza danych za pomocą drzewa decyzyjnego 1 Wartość zmiennej objaśnianej. 2 Dane treningowe. 3 Dane walidacyjne. 4 Liczba obserwacji. 5 Udział procentowy dla każdej wartości zmiennej objaśnianej.
17 Budowa modelu Współczynnik Giniego Entropia Analiza danych za pomocą drzewa decyzyjnego
18 Wykres klasyfikacji Wstęp Budowa modelu Współczynnik Giniego Entropia Wybieramy Rezultaty Widok Ocena Wykres klasyfikacji.
19 Postać modelu Wstęp Budowa modelu Współczynnik Giniego Entropia Budując model drzewa dokonujemy podziału za pomocą wzoru: Z = Z 0 r i=1 n i n 0 Z i, gdzie Z 0 - stopień niejednorodności dzielonego elementu, n 0 - liczność dzielonego elementu, r - liczba elementów powstających w wyniku podziału, Z i - niejednorodność i-tego elementu powstałego w wyniku podziału, n i - liczność i-tego elementu powstałego w wyniku podziału. Wybieramy ten podział, dla którego różnica Z jest największa.
20 Stopień niejednorodności Budowa modelu Współczynnik Giniego Entropia Stopień niejednorodności (zanieczyszczenia) może być oceniany przy użyciu następujących miar: Współczynnik Giniego Z = 1 k pi 2, gdzie k - liczba kategorii przyjmowanych przez zmienną objaśnianą, p i - odsetek obserwacji przyjmujących i-tą wartość zmiennej objaśnianej. i=1 Współczynnik entropii Z = H(p 1,..., p k ) = k p i log 2 (p i ) i=1
21 Współczynnik Giniego - przykład Rozważmy tabelę z danymi: Budowa modelu Współczynnik Giniego Entropia Chcemy wyznaczyć czy dana osoba należy do grupy wysokiego czy niskiego ryzyka. Atrybutami, względem których możemy podzielić zbiór wejściowy są Wiek oraz Typ samochodu. Możliwe punkty podziału dla wieku to: Wiek 17, Wiek 20, Wiek 23, Wiek 32, Wiek 43, Wiek 68 oraz dla typu samochodu: {sport}, {truck}, {family}. Klasy to Low oraz High.
22 Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Punkt podziału g split dany jest wzorem: m1 + n1 m2 + n2 g split = Z1 + Z2, gdzie m + n m + n m 1, n 1 - liczba elementów w S 1 należących do klas odpowiednio High i Low, m 2, n 2 - liczba elementów w S 2 należących do klas odpowiednio High i Low. W przypadku Wiek 17 mamy: Wartości współczynników Giniego oraz punktu podziału wynoszą: Z 1 = Z(S 1) = Z(Wiek 17) = 1 ( ) = 0, Z 2 = Z(S 2) = Z(Wiek 17) = 1 ((3/5) 2 + (2/5) 2 ) = 0.73, g split = m1 + n1 m + n m2 + n2 Z1 + Z2 = (1/6) 0 + (5/6) 0.73 = 0.61 m + n
23 Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Postępując analogicznie dla kolejnych punktów podziału: Wiek 20, Wiek 23, Wiek 32, Wiek 43, Wiek 68 otrzymamy: Wiek 20, g split = 0.33 Wiek 23, g split = 0.22 Wiek 32, g split = 0.29 Wiek 43, g split = 0.27 Wiek 68, g split = 0.44
24 Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Podobnie postępujemy przy podziale ze względu na typ samochodu. Z(Typ sam {sport}) = 1 ((2/2) ) = 0, Z(Typ sam {family, truck}) = 1 ((2/4) 2 + (2/4) 2 ) = 0.5, g split = (2/6) 0 + (4/6) 0.5 = 0.33, Z(Typ sam {truck}) = 0, Z(Typ sam {family, sport}) = 0.32, g split = (1/6) 0 + (5/6) 0.32 = 0.27, Z(Typ sam {family}) = 0.44, Z(Typ sam {truck, sport}) = 0.44, g split = (3/6) (3/6) 0.44 = 0.44.
25 Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Najmniejsza wartość g split = 0.22 jest przyjmowana w przypadku punktu podziału Wiek 23. Ostatecznie, ze względu na dużą rozpiętość między kolejnymi danymi na temat wieku, punkt podziału ustalamy na g split = ( )/2 = Na skutek takiego podziału dostajemy drzewo postaci: Możemy zauważyć, że w każdym przypadku gdy Wiek 27.5 Ryzyko wpada do klasy High, więc lewa gałąź nie będzie rozwijana - doszliśmy do liścia.
26 Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Podział prawego węzła ze względu na Typ samochodu przebiega analogicznie z uwzględnieniem, że Wiek > 27.5, czyli na danych:
27 Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Ostatecznie drzewo ma postać:
28 Współczynnik entropii Budowa modelu Współczynnik Giniego Entropia Do wyboru atrybutu testowego w wierzchołku drzewa decyzyjnego wykorzystujemy miarę zysku informacyjnego. W tym celu wybieramy atrybut o największej wartości zysku (lub o największej redukcji entropii) Atrybut testowy minimalizuje ilość informacji niezbędnej do klasyfikacji przykładów w partycjach uzyskanych w wyniku podziału
29 Współczynnik entropii Budowa modelu Współczynnik Giniego Entropia Dany jest zbiór przykładów S, zbiór kategorii C i oraz zbiory s i należące do C i. Wartość współczynnika entropii możemy obliczyć przy użyciu poniższego wzoru: Współczynnik entropii m H(s 1,..., s 2) = p i log 2 (p i ), i=1 gdzie: m - liczba różnych wartości przyjmowanych przez zmienną objaśniającą p i = s i - odsetek obserwacji przyjmujących i-tą wartość zmiennej s objaśnianej. UWAGA Przyjmuje się 0 log 2 0 = 0.
30 Entropia Wstęp Budowa modelu Współczynnik Giniego Entropia Entropię podziału zbioru S, ze względu na atrybut A definiujemy następująco: Entropia E(a 1,..., a k ) = k j=1 (s 1j + +s mj ) s H(s 1j,..., s mj ), gdzie: m H(s 1j,..., s mj ) = p ij log 2 (p ij ) i=1 p ij = s ij S j, S j - dana partycja. Im mniejsza wartość entropii, tym mniejsze zanieczyszczenie podziału zbioru S na partycje.
31 Zysk informacyjny Wstęp Budowa modelu Współczynnik Giniego Entropia Zysk informacyjny, wynikający z podziału zbioru S, ze względu na atrybut A, definiujemy: Zysk informacyjny Gain(A) = H(s 1,..., s m) E(A).
32 Przykład Wstęp Budowa modelu Współczynnik Giniego Entropia Jako atrybut decyzyjny przyjmujemy kupi komputer.
33 Przykład Wstęp Budowa modelu Współczynnik Giniego Entropia Atrybut kupi komputer posiada dwie wartości: tak i nie, stąd otrzymujemy dwie klasy: C 1 - odpowiada wartości tak i zawiera s 1 = 9 elementów C 2 - odpowiada wartości nie i zawiera s 2 = 5 elementów Otrzymujemy: H(s 1, s 2) = H(9, 5) = 9 14 log log = 0.94.
34 Budowa modelu Współczynnik Giniego Entropia Kolejnym krokiem jest obliczenie entropii każdego atrybutu testowego. Pierwszym będzie wiek, który składa się z 3 partycji. wiek= 30 s 11 = 2 s 21 = 3 H(s 11, s 21) = wiek= s 12 = 4 s 22 = 0 H(s 12, s 22) = 0. wiek= >40 s 13 = 2 s 23 = 3 H(s 13, s 23) =
35 Budowa modelu Współczynnik Giniego Entropia Entropia atrybutu wiek wynosi: E( wiek ) = H(s11, s21) + H(s12, s22) + H(s13, s23) = Zysk informacyjny wynikający z podziału zbioru S, ze względu na atrybut wiek wynosi: Gain( wiek ) = I (s 1, s 2) E( wiek ) = = 0.277
36 Budowa modelu Współczynnik Giniego Entropia Analogicznie postępujemy z pozostałymi atrybutami. W ten sposób otrzymujemy: Zysk informacyjny wszystkich atrybutów Gain( wiek ) = Gain( dochód )= Gain( student ) = Gain( status ) = Jako pierwszy atrybut testowy wybieramy ten z największym zyskiem informacyjnym, w tym przypadku wiek.
37 Budowa modelu Współczynnik Giniego Entropia Tworzymy wierzchołek o etykiecie wiek oraz łuki wychodzące łączące wierzchołek wiek z wierzchołkami odpowiadającymi partycjom utworzonym zgodnie z podziałem zbioru S wg atrybutu wiek.
38 Budowa modelu Współczynnik Giniego Entropia Postępując analogicznie dla wierzchołków S 1 oraz S 3, okazuje się, że najlepszym atrybutem testowym dla wierzchołka odpowiadającym dla pierwszej partycji jest atrybut student, a dla trzeciej partycji - atrybut status. Ostateczny kształt drzewa decyzyjnego przedstawiono na rysunku poniżej.
39 Przygotowanie danych Węzeł Imputacja Węzeł Aby wykonać regresję należy uzupełnić braki danych. W tym celu posłużymy się węzłem Imputacja. Wybrać zakładkę Modyfikacja Imputacja, przeciągnąć na pole diagramu oraz połączyć z węzłem Partycjonowanie.
40 Metody uzupełniania danych Węzeł Imputacja Węzeł Spośród metod uzupełniania danych są między innymi: Dominanta Średnia Mediana Wartość wylosowana zgodnie z rozkładem Wartość uzyskana na podstawie drzewa decyzyjnego
41 Węzeł Imputacja Węzeł W zakładce Modelowanie wybieramy przeciągamy na pole diagramu i łączymy z węzłem Imputacja. Dodatkowo z naszego modelu regresji wyrzucamy zmienne tekstowe. W tym celu klikamy prawym przyciskiem na węzeł Edytuj zmienne dla zmiennych IMP JOB oraz IMP REASON wybieramy w kolumnie użyj - Nie.
42 Węzeł Imputacja Węzeł
43 Węzeł Imputacja Węzeł Wykres efektów pokazuje wartości współczynników regresji. Zaznaczone są osobnymi kolorami współczynniki dodatnie i ujemne. Dodatkowo po zaznaczeniu okna wykresu, klikając w lewym górnym rogu na ikonę Tabela wyświetlają się rezultaty z dokładnymi watościami współczynników oraz test istotności dla parametrów.
44 Postać modelu Wstęp Węzeł Imputacja Węzeł W naszym przypadku jako funkcji łączącej (link function) użyliśmy funkcji logitowej. Zatem wartość oczekiwana w naszym modelu przyjmuje postać: G(E(BAD)) = k a i X i, gdzie k - liczba zmiennych, i=1 a i - wartość współczynnika, x i - wartość zmiennej, funkcja G(x) = log( x 1 x ).
45 Czym jest sieć neuronowa? Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach Sieci neuronowe w założeniu są to obiekty, które swoim działaniem naśladują aktywność rzeczywistych układów nerwowych. Poniżej jest przedstawiony prosty model regresyjny w postaci sieci neuronowej. Warstwa wejściowa zawiera n neuronów (odpowiadających zmiennym) oraz warstwę wyjściową sumującą ważone impulsy i transformującą je do skali oryginalnej zmiennej Y.
46 Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach Podstawowym rozszerzeniem tak opisanej architektury jest model perceptronu wielowarstwowego (MLP - Multi Layer Perceptron), który dodatkowo zawiera warstwę ukrytą. Składa się ona z określonej ilości neuronów, które nieliniowo przekształcają kombinację liniową otrzymanych sygnałów. Pojedynczy neuron z warstwy ukrytej składa się z dwóch elementów: sumatora i funkcji aktywacji. Pierwszy z nich dokonuje sumowania ważonych sygnałów z warstwy wejściowej oraz wyrazu wolnego, drugi tak otrzymaną sumę przekształca przy użyciu określonej funkcji ciągłej.
47 Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach Schemat sieci neuronowej z jedną warstwą ukrytą zawierającą n neuronów. Model opisany dla m zmiennych objaśniających
48 Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach W zakładce Modelowanie wybieramy Sieć neuronowa przeciągamy na pole diagramu i łączymy z węzłem Imputacja w lewym dolnym oknie wybieramy przycisk [...] w wierszu Sieć ustawiamy Liczbę jednostek ukrytych na 20.
49 Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach Wykres klasyfikacji.
50 Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach W Rezultatach wybieramy Widok Model Wagi końcowe.
51 Przetwarzanie informacji w neuronach Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach Pobudzeniem neuronu p domyślnie jest liniowa funkcja sygnałów wejściowych z wagami połączeń jako współczynnikami (combination function). gdzie x i - wartość zmiennej w i - waga zmiennej. p = n w i x i, i=1 Sygnał wyjściowy y jest zależny od całkowitego pobudzenia neuronu, transformowanego przez funkcję aktywacji. Pozwala to wprowadzić nieliniowość. y = f (p) = f ( n w i x i ) i=1
52 Węzeł porównanie modeli Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli W zakładce Ocena wybieramy Porównanie modeli przeciągamy na pole diagramu i łączymy z węzłami wszystkich prezentowanych metod.
53 Statystyki dopasowania Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Dopasowanie modelu może być ocenione przy użyciu różnych statystyk. Przykładowe to: Skuteczność klasyfikacji Błąd średniokwadratowy (ASE) ASE = 1 n n (yi y i ) 2 Statystyka Kołmogorowa-Smirnowa KS = max{t : F 1(t) F 0(t) } Indeks ROC Wzrost (lift) i=1
54 Porównanie modeli Wstęp Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Krzywe ROC dla trzech modeli dla każdej partycji. Miarą dopasowania jest pole pod wykresem - im wartość bliższa 1 tym lepiej dopasowany model.
55 Krzywa ROC - przykład Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli W badaniach dopasowania zmiennej binarnej korzysta się z takich miar jak specyficzność i wrażliwość. Załóżmy, że przeprowadzamy test na HIV. W populacji są osoby zdrowe oraz chore. Osoby zarażone oznaczymy y i = 1. Jeśli nasz test wskaże, że osoba jest chora oznaczymy ŷ i = 1, a gdy zdrowa ŷ i = 0 Wrażliwość (czułość) jest to prawdopodobieństwo, że chorą osobę test zakwalifikuje jako rzeczywiście chorą P(ŷ i = 1 y i = 1) w przybliżeniu jest to udział osób, które są chore i u których test wyszedł poprawnie spośród wszystkich chorych osób. P(ŷ i = 1 y i = 1) n 11 n 11 +n 01 Wrażliwość to true positive. Specyficzność (swoistość) jest to prawdopodobieństwo, że zdrową osobę test zakwalifikuje jako rzeczywiście zdrową P(ŷ i = 0 y i = 0) w przybliżeniu jest to udział osób, które są zdrowe i u których test wyszedł poprawnie spośród wszystkich zdrowych osób. P(ŷ i = 0 y i = 0) n 00 n 00 +n 10 Wrażliwość to true negative.
56 Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Na wykresie krzywej ROC na jednej osi odkłada się wrażliwość, a na drugiej 1-specyficzność. 1-specyficzność to udział osób, które są zdrowe ale test wykazał, że są chore P(ŷ i = 1 y i = 0) = 1 P(ŷ i = 0 y i = 0). 1-specyficzność to false positives. Zatem krzywa ROC obrazuje stosunek true positives do false positives. W przypadku idealnego modelu krzywa ROC przedstawia lewą i górną krawędź. Jeśli losowo byśmy podawali wyniki testu to krzywa byłaby przekątną kwadratu. Natomiast krzywa leżąca pod przekątną oznacza, że lepsze prognozy uzyskalibyśmy gdybyśmy losowo mówili osobom czy są chore czy nie, niż przeprowadzali test. Dlatego używa się pola pod krzywą ROC jako miary dopasowania.
57 Wykres liftu łącznego Wstęp Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Wykres przyrostu pokazuje o ile częściej niż w danych źródłowych przewidywana klasa występuje w próbie wskazanej przez dany model. Uzyskana w ten sposób krzywa powinna gładko spadać od największej wartości do 1. Gwałtowne skoki w górę sugerują, że model jest nieodpowiedni (oznaczają one, że model niezgodnie z rzeczywistością przewiduje szansę przynależności do klasy: tam gdzie wg modelu jest ona mniejsza, w rzeczywistości jest większa).
58 Statystyki dopasowania Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Na podstawie przedstawionych poniżej kryteriów najlepszym modelem jest drzewo decyzyjne.
59 Instalacja i uruchomienie. Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Ze względu na często niepoprawną instalację, Miner niekiedy nie działa. Dokładną instrukcję instalacji można znaleźć pod linkiem: pl/support/dokumenty.html Włączając Minera należy uruchomić go jako Administrator.
Data mining. Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska. 14 czerwca 2018
Data mining Maciej Jędrzejczyk Paulina Konecka Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska 14 czerwca 2018 Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 1
Bardziej szczegółowoData Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład
Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT
Bardziej szczegółowoDrzewa decyzyjne w SAS Enterprise Miner
Drzewa decyzyjne w SAS Enterprise Miner Aneta Ptak-Chmielewska Instytut Statystyki i Demografii Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych www.sgh.waw.pl/zaklady/zahziaw 1 struktura ćwiczeń
Bardziej szczegółowoData Mining. Statystyka w SAS. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 1 / 98
Data Mining Klaudia Malinowska Simona Pikuła Statystyka w SAS Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 1 / 98 Plan prezentacji 1 Data Mining-co to jest? 2 Metodologia SEMMA 3 Analiza
Bardziej szczegółowoEksploracja danych. Definicja (Eksploracja danych)
Data mining Stefania Wietrzykowska, Piotr Lebiedź Politechnika Gdańska Wydział Fizyki Technicznej i Matematyki Stosowanej 11 czerwca 2017 tefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data
Bardziej szczegółowoKlasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2
Klasyfikacja Indeks Gini Zysk informacyjny Klasyfikacja wykład 2 Kontynuujemy prezentacje metod klasyfikacji. Na wykładzie zostaną przedstawione dwa podstawowe algorytmy klasyfikacji oparte o indukcję
Bardziej szczegółowoProjekt Sieci neuronowe
Projekt Sieci neuronowe Chmielecka Katarzyna Gr. 9 IiE 1. Problem i dane Sieć neuronowa miała za zadanie nauczyć się klasyfikować wnioski kredytowe. W projekcie wykorzystano dane pochodzące z 110 wniosków
Bardziej szczegółowoSAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
Bardziej szczegółowoALGORYTMY SZTUCZNEJ INTELIGENCJI
ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.
Bardziej szczegółowoStan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta
Stan dotychczasowy OCENA KLASYFIKACJI w diagnostyce Wybraliśmy metodę uczenia maszynowego (np. sieć neuronowa lub drzewo decyzyjne), która będzie klasyfikować nieznane przypadki Na podzbiorze dostępnych
Bardziej szczegółowoZastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Sieci neuronowe Sieci neuronowe w SAS Enterprise Miner Węzeł Neural Network Do
Bardziej szczegółowoIndukowane Reguły Decyzyjne I. Wykład 8
Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne
Bardziej szczegółowoALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Bardziej szczegółowoZastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Sieci Kohonena Sieci Kohonena Sieci Kohonena zostały wprowadzone w 1982 przez fińskiego
Bardziej szczegółowoLaboratorium 4. Naiwny klasyfikator Bayesa.
Laboratorium 4 Naiwny klasyfikator Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk
Bardziej szczegółowoSIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)
SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) 1. Opis problemu - ocena końcowa projektu Projekt jako nowe, nietypowe przedsięwzięcie wymaga właściwego zarządzania. Podjęcie się realizacji
Bardziej szczegółowoSieci neuronowe w Statistica
http://usnet.us.edu.pl/uslugi-sieciowe/oprogramowanie-w-usk-usnet/oprogramowaniestatystyczne/ Sieci neuronowe w Statistica Agnieszka Nowak - Brzezińska Podstawowym elementem składowym sztucznej sieci neuronowej
Bardziej szczegółowoPrzykład Rezygnacja z usług operatora
Przykład Rezygnacja z usług operatora Zbiór CHURN Zbiór zawiera dane o 3333 klientach firmy telefonicznej razem ze wskazaniem, czy zrezygnowali z usług tej firmy Dane pochodzą z UCI Repository of Machine
Bardziej szczegółowoLaboratorium 6. Indukcja drzew decyzyjnych.
Laboratorium 6 Indukcja drzew decyzyjnych. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk
Bardziej szczegółowoSieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska
Sieci neuronowe w Statistica Agnieszka Nowak - Brzezioska Podstawowym elementem składowym sztucznej sieci neuronowej jest element przetwarzający neuron. Schemat działania neuronu: x1 x2 w1 w2 Dendrites
Bardziej szczegółowoPrzykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość
Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego
Bardziej szczegółowoNaszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.
ANALIZA SKUPIEŃ Metoda k-means I. Cel zadania Zadaniem jest analiza zbioru danych, gdzie zmiennymi są poziomy ekspresji genów. Podczas badań pobrano próbki DNA od 36 różnych pacjentów z chorobą nowotworową.
Bardziej szczegółowoWprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Bardziej szczegółowoSztuczna Inteligencja Tematy projektów Sieci Neuronowe
PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia
Bardziej szczegółowoElementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa
Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący
Bardziej szczegółowoSystemy uczące się wykład 2
Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania
Bardziej szczegółowoWprowadzenie do analizy dyskryminacyjnej
Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela
Bardziej szczegółowoWprowadzenie do uczenia maszynowego
Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 12 stycznia 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania
Bardziej szczegółowoAdam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska
Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera
Bardziej szczegółowoLABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej
LABORATORIUM 3 Przygotowanie pliku (nazwy zmiennych, export plików.xlsx, selekcja przypadków); Graficzna prezentacja danych: Histogramy (skategoryzowane) i 3-wymiarowe; Wykresy ramka wąsy; Wykresy powierzchniowe;
Bardziej szczegółowoTesty nieparametryczne
Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów
Bardziej szczegółowoTemat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE
Temat: Sztuczne Sieci Neuronowe Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE Dr inż. Barbara Mrzygłód KISiM, WIMiIP, AGH mrzyglod@ agh.edu.pl 1 Wprowadzenie Sztuczne sieci neuronowe
Bardziej szczegółowoTESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.
TESTY NIEPARAMETRYCZNE 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. Standardowe testy równości średnich wymagają aby badane zmienne losowe
Bardziej szczegółowoIndukowane Reguły Decyzyjne I. Wykład 3
Indukowane Reguły Decyzyjne I Wykład 3 IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 2 Powtórzenie
Bardziej szczegółowoJak korzystać z Excela?
1 Jak korzystać z Excela? 1. Dane liczbowe, wprowadzone (zaimportowane) do arkusza kalkulacyjnego w Excelu mogą przyjmować różne kategorie, np. ogólne, liczbowe, walutowe, księgowe, naukowe, itd. Jeśli
Bardziej szczegółowoRegresja linearyzowalna
1 z 5 2007-05-09 23:22 Medycyna Praktyczna - portal dla lekarzy Regresja linearyzowalna mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie Data utworzenia:
Bardziej szczegółowoBadanie zależności skala nominalna
Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność
Bardziej szczegółowoWeryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
Bardziej szczegółowoJedną z ciekawych funkcjonalności NOLa jest możliwość dokonywania analizy technicznej na wykresach, które mogą być otwierane z poziomu okna notowań:
Wykresy w NOLu Jedną z ciekawych funkcjonalności NOLa jest możliwość dokonywania analizy technicznej na wykresach, które mogą być otwierane z poziomu okna notowań: Po naciśnięciu F2 otwiera się nowe okno,
Bardziej szczegółowoĆwiczenie 12. Metody eksploracji danych
Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych
Bardziej szczegółowoEkonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej
Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Paweł Cibis pawel@cibis.pl 23 lutego 2007 1 Regresja liniowa 2 wzory funkcje 3 Korelacja liniowa
Bardziej szczegółowoTestowanie modeli predykcyjnych
Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności
Bardziej szczegółowoMODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
Bardziej szczegółowoZastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH
Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego Łukasz Kończyk WMS AGH Plan prezentacji Model regresji liniowej Uogólniony model liniowy (GLM) Ryzyko ubezpieczeniowe Przykład
Bardziej szczegółowoDokumentacja Końcowa
Metody Sztucznej Inteligencji 2 Projekt Prognozowanie kierunku ruchu indeksów giełdowych na podstawie danych historycznych. Dokumentacja Końcowa Autorzy: Robert Wojciechowski Michał Denkiewicz Wstęp Celem
Bardziej szczegółowoSystemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład III bogumil.konopka@pwr.edu.pl 2016/2017 Wykład III - plan Regresja logistyczna Ocena skuteczności klasyfikacji Macierze pomyłek Krzywe
Bardziej szczegółowoRegresja logistyczna (LOGISTIC)
Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim
Bardziej szczegółowoData Mining Wykład 4. Plan wykładu
Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje
Bardziej szczegółowo( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:
ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość
Bardziej szczegółowoOptymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Bardziej szczegółowoAnaliza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Bardziej szczegółowoPopulacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu
Bardziej szczegółowoEkonometria. Regresja liniowa, dobór postaci analitycznej, transformacja liniowa. Paweł Cibis 24 marca 2007
Regresja liniowa, dobór postaci analitycznej, transformacja liniowa Paweł Cibis pawel@cibis.pl 24 marca 2007 1 Regresja liniowa 2 Metoda aprioryczna Metoda heurystyczna Metoda oceny wzrokowej rozrzutu
Bardziej szczegółowoFunkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.
Funkcje wymierne Jerzy Rutkowski Teoria Przypomnijmy, że przez R[x] oznaczamy zbiór wszystkich wielomianów zmiennej x i o współczynnikach rzeczywistych Definicja Funkcją wymierną jednej zmiennej nazywamy
Bardziej szczegółowoAnaliza zależności liniowych
Narzędzie do ustalenia, które zmienne są ważne dla Inwestora Analiza zależności liniowych Identyfikuje siłę i kierunek powiązania pomiędzy zmiennymi Umożliwia wybór zmiennych wpływających na giełdę Ustala
Bardziej szczegółowoTworzenie szablonów użytkownika
Poradnik Inżyniera Nr 40 Aktualizacja: 12/2018 Tworzenie szablonów użytkownika Program: Plik powiązany: Stratygrafia 3D - karty otworów Demo_manual_40.gsg Głównym celem niniejszego Przewodnika Inżyniera
Bardziej szczegółowoĆwiczenie 6. Transformacje skali szarości obrazów
Politechnika Wrocławska Wydział Elektroniki Mikrosystemów i Fotoniki Przetwarzanie sygnałów laboratorium ETD5067L Ćwiczenie 6. Transformacje skali szarości obrazów 1. Obraz cyfrowy Obraz w postaci cyfrowej
Bardziej szczegółowoWydział Matematyki. Testy zgodności. Wykład 03
Wydział Matematyki Testy zgodności Wykład 03 Testy zgodności W testach zgodności badamy postać rozkładu teoretycznego zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy
Bardziej szczegółowoProjekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski
Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem
Bardziej szczegółowoUczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0
Uczenie się pojedynczego neuronu W0 X0=1 W1 x1 W2 s f y x2 Wp xp p x i w i=x w+wo i=0 Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z=0 Wówczas: W 1 x 1 + w 2 x 2 + = 0 Algorytm
Bardziej szczegółowoAlgorytm grupowania danych typu kwantyzacji wektorów
Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych
Bardziej szczegółowoPróba własności i parametry
Próba własności i parametry Podstawowe pojęcia Zbiorowość statystyczna zbiór jednostek (obserwacji) nie identycznych, ale stanowiących logiczną całość Zbiorowość (populacja) generalna skończony lub nieskończony
Bardziej szczegółowoZJAZD 4. gdzie E(x) jest wartością oczekiwaną x
ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych
Bardziej szczegółowoPRÓBNY EGZAMIN MATURALNY Z MATEMATYKI
PRÓBNY EGZAMIN MATURALNY Z MATEMATYKI PRZED MATURĄ MAJ 2016 POZIOM PODSTAWOWY Instrukcja dla zdającego 1. Sprawdź, czy arkusz egzaminacyjny zawiera 14 stron (zadania 1 31). 2. Rozwiązania zadań wpisuj
Bardziej szczegółowoRozkład materiału nauczania
Dział/l.p. Ilość godz. Typ szkoły: TECHNIKUM Zawód: TECHNIK USŁUG FRYZJERSKICH Rok szkolny 2017/2018 Przedmiot: MATEMATYKA Klasa: III 60 godzin numer programu T5/O/5/12 Rozkład materiału nauczania Temat
Bardziej szczegółowoSystemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
Bardziej szczegółowoStatystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Bardziej szczegółowoWstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa, Andrzej Rutkowski Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2018-10-15 Projekt
Bardziej szczegółowo4. Średnia i autoregresja zmiennej prognozowanej
4. Średnia i autoregresja zmiennej prognozowanej 1. Średnia w próbie uczącej Własności: y = y = 1 N y = y t = 1, 2, T s = s = 1 N 1 y y R = 0 v = s 1 +, 2. Przykład. Miesięczna sprzedaż żelazek (szt.)
Bardziej szczegółowoSYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy
Załącznik nr 4 do Uchwały Senatu nr 430/01/2015 SYLABUS Dotyczy cyklu kształcenia 2014-2018 Realizacja w roku akademickim 2016/2017 1.1. PODSTAWOWE INFORMACJE O PRZEDMIOCIE/MODULE Nazwa przedmiotu/ modułu
Bardziej szczegółowoWYMAGANIA Z MATEMATYKI NA POSZCZEGÓLNE OCENY KLASYFIKACYJNE DLA UCZNIÓW KLAS TRZECICH. Sposoby sprawdzania wiedzy i umiejętności uczniów
WYMAGANIA Z MATEMATYKI NA POSZCZEGÓLNE OCENY KLASYFIKACYJNE DLA UCZNIÓW KLAS TRZECICH Sposoby sprawdzania wiedzy i umiejętności uczniów 1. Odpowiedzi ustne. 2. Sprawdziany pisemne. 3. Kartkówki. 4. Testy.
Bardziej szczegółowo5. Model sezonowości i autoregresji zmiennej prognozowanej
5. Model sezonowości i autoregresji zmiennej prognozowanej 1. Model Sezonowości kwartalnej i autoregresji zmiennej prognozowanej (rząd istotnej autokorelacji K = 1) Szacowana postać: y = c Q + ρ y, t =
Bardziej szczegółowoAnaliza korespondencji
Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy
Bardziej szczegółowoĆ w i c z e n i e 3 : W i z u a l i z a c j a d a n y c h - w y k r e s y S t r o n a 1
Ć w i c z e n i e 3 : W i z u a l i z a c j a d a n y c h - w y k r e s y S t r o n a 1 Zadanie 1. Tworzenie wykresów zmiennych jakościowych wyrażonych w skali nominalnej i porządkowej. Utworzyć wykres
Bardziej szczegółowo1. Opis okna podstawowego programu TPrezenter.
OPIS PROGRAMU TPREZENTER. Program TPrezenter przeznaczony jest do pełnej graficznej prezentacji danych bieżących lub archiwalnych dla systemów serii AL154. Umożliwia wygodną i dokładną analizę na monitorze
Bardziej szczegółowoĆwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie
Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych Regresja logistyczna i jej zastosowanie Model regresji logistycznej jest budowany za pomocą klasy Logistic programu WEKA. Jako danych wejściowych
Bardziej szczegółowoTablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
Bardziej szczegółowoAlgorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Bardziej szczegółowoKatalog wymagań na poszczególne stopnie szkolne klasa 3
Katalog wymagań na poszczególne stopnie szkolne klasa 3 I. GRANIASTOSŁUPY I OSTROSŁUPY 6 5 4 3 2 Wskazuje wśród wielościanów graniastosłupy proste i pochyłe. Wskazuje na modelu lub rysunku krawędzie, wierzchołki,
Bardziej szczegółowoDopasowywanie modelu do danych
Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;
Bardziej szczegółowoSztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek
Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Cel projektu Celem projektu jest przygotowanie systemu wnioskowania, wykorzystującego wybrane algorytmy sztucznej inteligencji; Nabycie
Bardziej szczegółowoEkonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji, współczynnik korelacji wielorakiej. Paweł Cibis
Regresja liniowa, współczynnik zmienności, współczynnik korelacji, współczynnik korelacji wielorakiej Paweł Cibis pcibis@o2.pl 9 marca 2006 1 Regresja liniowa 2 wzory funkcje 3 Korelacja liniowa wzory
Bardziej szczegółowoĆwiczenie: Wybrane zagadnienia z korelacji i regresji.
Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00±0,20)
Bardziej szczegółowoWykład 4 Związki i zależności
Wykład 4 Związki i zależności Rozważmy: Dane z dwiema lub więcej zmiennymi Zagadnienia do omówienia: Zmienne objaśniające i zmienne odpowiedzi Wykres punktowy Korelacja Prosta regresji Słownictwo: Zmienna
Bardziej szczegółowoDrzewa decyzyjne i lasy losowe
Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM
Bardziej szczegółowo1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:
Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).
Bardziej szczegółowoLINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU
LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Jednym z elementów walidacji metod pomiarowych jest sprawdzenie liniowości
Bardziej szczegółowoKlasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania
Bardziej szczegółowoModuł Handlowo-Magazynowy Przeprowadzanie inwentaryzacji z użyciem kolektorów danych
Moduł Handlowo-Magazynowy Przeprowadzanie inwentaryzacji z użyciem kolektorów danych Wersja 3.77.320 29.10.2014 r. Poniższa instrukcja ma zastosowanie, w przypadku gdy w menu System Konfiguracja Ustawienia
Bardziej szczegółowoSIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)
SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) 1. Opis problemu - ocena końcowa projektu Projekt jako nowe, nietypowe przedsięwzięcie wymaga właściwego zarządzania. Podjęcie się realizacji
Bardziej szczegółowoMonte Carlo, bootstrap, jacknife
Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział
Bardziej szczegółowoEkonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007
Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja
Bardziej szczegółowoModelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS
Modelowanie Data Mining na wielką skalę z SAS Factory Miner Paweł Plewka, SAS Wstęp SAS Factory Miner Nowe narzędzie do data mining - dostępne od połowy 2015 r. Aktualna wersja - 14.1 Interfejs webowy
Bardziej szczegółowoRozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
Bardziej szczegółowoMetody Sztucznej Inteligencji II
17 marca 2013 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką, która jest w stanie odbierać i przekazywać sygnały elektryczne. Neuron działanie Jeżeli wartość sygnału
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoTestowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
Bardziej szczegółowoWojciech Skwirz
1 Regularyzacja jako metoda doboru zmiennych objaśniających do modelu statystycznego. 2 Plan prezentacji 1. Wstęp 2. Część teoretyczna - Algorytm podziału i ograniczeń - Regularyzacja 3. Opis wyników badania
Bardziej szczegółowoStatystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Bardziej szczegółowo