Eksploracja danych - wykład IV

Podobne dokumenty
1 Podstawy rachunku prawdopodobieństwa

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Rozdział 8. Regresja. Definiowanie modelu

Wnioskowanie statystyczne. Statystyka w 5

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

W1. Wprowadzenie. Statystyka opisowa

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Analiza danych. TEMATYKA PRZEDMIOTU

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Wprowadzenie do analizy korelacji i regresji

MODELE LINIOWE. Dr Wioleta Drobik

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Laboratorium 3 - statystyka opisowa

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

Testowanie hipotez statystycznych.

Rozkłady statystyk z próby. Statystyka

Testowanie hipotez statystycznych

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Spis treści 3 SPIS TREŚCI

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

WYKŁAD 5 TEORIA ESTYMACJI II

Estymacja punktowa i przedziałowa

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Zadania ze statystyki, cz.6

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 23 marca 2006

1.1 Wstęp Literatura... 1

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Analiza składowych głównych. Wprowadzenie

Statystyka matematyczna i ekonometria

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Statystyka Matematyczna Anna Janicka

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Statystyka matematyczna dla leśników

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Estymacja parametrów rozkładu cechy

WSKAZÓWKI DO WYKONANIA SPRAWOZDANIA Z WYRÓWNAWCZYCH ZAJĘĆ LABORATORYJNYCH

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

METODY STATYSTYCZNE W BIOLOGII

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

BADANIE POWTARZALNOŚCI PRZYRZĄDU POMIAROWEGO

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Komputerowa Analiza Danych Doświadczalnych

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

STATYSTYKA MATEMATYCZNA

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

STATYSTYKA MATEMATYCZNA

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW

Parametry statystyczne

Transkrypt:

- wykład 1/41 wykład - wykład Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 27 października 2016

- wykład 2/41 wykład 1 2 3 4 5

- wykład 3/41 CRISP-DM - standaryzacja wykład

- wykład 4/41 Przykładowe metody wykład Zadanie opis szacowanie przewidywanie odkrywanie reguł klasyfikacja grupowanie Przykładowe metody eksploracyjna analiza reguły asocjacyjne drzewa decyzyjne podejście podejście reguły asocjacyjne algorytm k-najbliższych sąsiadów drzewa decyzyjne sieci neuronowe grupowanie hierarch. i metoda k-średnich sieci Kohonena

- wykład 5/41 Metody wykład metody jednowymiarowe estymacja statystyczna estymacja punktowa przedział ufności prosta regresji liniowej regresja wielokrotna

- wykład 6/41 Miary środka I wykład Miary środka są szczególnym przypadkiem miar położenia, miarami ilościowych podsumowań, które wskazują, gdzie na osi leży dana charakterystyka zmiennej. Wyróżniamy podstawowe miary środka: Średnia arytmetyczna zmiennej x = n i=1 x n ;

- wykład 7/41 Miary środka II wykład Mediana - wartość cechy w szeregu uporządkowanym, powyżej i poniżej której znajduje się jednakowa liczba obserwacji. By obliczyć medianę ze zbioru n obserwacji, sortujemy je w kolejności od najmniejszej do największej i numerujemy od 1 do n. Następnie, jeśli n jest nieparzyste, medianą jest wartość obserwacji w środku (czyli obserwacji numer n+1 2 ). Jeśli natomiast n jest parzyste, wynikiem jest średnia arytmetyczna między dwiema środkowymi obserwacjami, czyli obserwacją numer n 2 i obserwacją numer n 2 + 1. Dominanta (dominanta, wartość modalna) - wartość o największym prawdopodobieństwie wystąpienia, lub wartość najczęściej występująca w próbie.

- wykład 8/41 Przykład - portfel akcji - współczynnik cena zysk wykład Portfel akcji A Portfel akcji B 1 7 11 8 11 11 11 11 16 13

- wykład 9/41 Miary zmienności i rozrzutu I wykład Miary zmienności i rozrzutu określaja jak bardzo dane są rozrzucone. Wyróżniamy: Zakres (max min) Odchylenie standardowe s = n (x i x) 2 n i=1 Średnie odchylenie bezwzględne D = ni=1 x i x n

- wykład 10/41 Miary zmienności i rozrzutu II wykład odstęp międzykwartylowy (kwartylny, ćwiartkowy) - różnica między kwartylem górnym (wartość w zestawie, od której większych jest 25% wartości z tego zestawu) i kwartylem dolnym (wartość w zestawie, od której mniejszych jest 25% wartości z tego zestawu).

- wykład 11/41 Wnioskowanie I wykład Wnioskowanie składa się z metod szacowania i testowania hipotez o cechach populacji na podstawie informacji zawartych w próbce. Populacja jest zbiorem wszystkich elementów (osób, rzeczy, ) dotyczących danego badania. Parametr jest cechą charakterystyczną populacji.

- wykład 12/41 Wnioskowanie II wykład Próbka jest reprezentatywnym podzbiorem populacji (jeżeli próbka nie jest reprezentaywna - charakterystyka próbki odbiega od charakterystyki populacji - nie należy stosować wnioskowania go). Statystyka jest charakterystyką próbki. Szacowanie wartości punktu użycie pojedynczej znanej wartości statystyki do szacowania parametru populacji. Obserwowana wartość statystyki jest nazywana punktem szacunkowym.

- wykład 13/41 Wnioskowanie III wykład Statystyka...szacuje... parametr próbki populacji średnia x µ odchylenie s σ standardowe procent p π

- wykład 14/41 Wiarygodność szacowania wykład Błąd próbkowania - różnica pomiędzy obserwowaną wartością szacowanego punktu, a nieznaną wartością parametru celu, zdefiniowana jako statystyka - parametr. Przedział ufności - przedział liczb stworzonych przez estymację punktu, razem z poziomem ufności, określającym prawdopodobieństwo tego, że przedział zawiera parametr.

- wykład 15/41 Przedział ufności wykład Większość przedziałów ufności przybiera postać: szacowany punkt ± margines błędu Na przykład: x ± t α/2 (s/ n)

- wykład 16/41 Metody nadzorowane i nienadzorowane wykład Metody nienadzorowane charakteryzują się niezdefiniowaną zmienną celu. Algorytm poszukuje wzorców i struktur wśród wszystkich zmiennych (np. grupowanie, reguły asocjacyjne). Metody nadzorowane określona zmienna celu jest wiele przykładów ze znaną wartością zmiennej celu - algorytm może nauczyc się, które wartości zmiennej celu są powiązane, z którymi wartościami zmiennych opisujących (np. regresja, drzewa decyzyjne, algorytm k-najbliższych sąsiadów).

- wykład 17/41 Metodologia modelu nadzorowanego wykład

- wykład 18/41 Optymalny poziom złożoności modelu wykład

- wykład 19/41 Kompromis obciążeniowo-wariacyjny I wykład

- wykład 20/41 Kompromis obciążeniowo-wariacyjny II wykład

- wykład 21/41 Kompromis obciążeniowo-wariacyjny III wykład Model o dużej złożoności ma małe obciążenie (pod względem współczynnika błędu na zbiorze uczącym), za to ma dużą wariancję. Model o małej złożoności ma duże obciążenie i małą wariancję.

- wykład 22/41 wykład metoda estymowania wartości oczekiwanej zmiennej ŷ przy znanych wartościach innej zmiennej lub zmiennych x. Szukana zmienna ŷ jest tradycyjnie nazywana zmienną objaśnianą, lub zależną. Inne zmienne x nazywa się zmiennymi objaśniającymi lub niezależnymi. Zarówno zmienne objaśniane, jak i objaśniające, mogą być wielkościami skalarnymi lub wektorami. Równanie regresji: ŷ = b 0 + b 1 x ŷ - szacowana wartość zmiennej celu b 0 - punkt przecięcia linii regresji z osią y b 1 - nachylenie linii regresji b 0 i b 1 - wspólczynniki regresji

- wykład 23/41 wykład Zalety: Wady: bardzo szybka (działa w czasie stałym - generalnie nie zależy od wielkości wejściowych), łatwo zrozumieć model, mniej podatna na nadmierne dopasowanie. nie pozwala na modelowanie skomplikowanych relacji, nie pozwala na wychwycenie nieliniowych zależności bez wcześniejszego przetworzenia wejściowych. Dobra w: bliższym przyjżeniu się danym, numerycznych zawierających wiele atrybutów.

- wykład 24/41 Prosta regresji liniowej I wykład

- wykład 25/41 Prosta regresji liniowej II wykład

- wykład 26/41 wielokrotna I wykład

- wykład 27/41 wielokrotna II wykład

- wykład 28/41 dwóch zmiennych wykład Dane zawierające 47 próbek: powierzchni domu (pow, stopy kwadratowe), liczby sypialni (ll), rzeczywistej wartości domu (USD). 2104,3,399900 1600,3,329900 2400,3,369000 1416,2,232000 3000,4,539900 1985,4,299900 1534,3,314900... Dane dostępne na: https://github.com/emersonmoretto/mlclass-ex1

- wykład 29/41 Wczytywanie, równanie normalne wykład data = csvread( ex1data2.txt ); X = data(:, 1:2); y = data(:, 3); m = length(y); %% [X sr sigma] = standaryzacja(x); X = [ones(m, 1) X]; % Wyznaczenie parametrow b z rownania normalnego b = zeros(size(x, 2), 1); b = pinv(x *X)*X *y;

- wykład 30/41 Metoda najmniejszych kwadratów wykład Mamy dane równanie w postaci macierzowej: Xb = y wykorzystujemy metodę najmniejszych kwadratów korzystając z układu równań normalnych (minimaluzje sumę kwadratów po obu stronach równania) X T Xb = X T y, gdzie: X - wektor n-elementowy zmiennych niezależnych, b - wektor niewiadomych czyli współczynniki regresji y - wartości zmiennej celu, wartośći funkcji, X [20, 3] b[3, 1] = y[20, 1] X T [3, 20] X [20, 3] b[3, 1] = X T [3, 20] y[20, 1] Przekształcenie: Xb = y ==> X 1 Xb = X 1 y ==> b = X 1 y X T Xb = X T y ==> (X T X ) 1 (X T X )b = (X T X ) 1 X T y b = (X T X ) 1 X T y ==> zgadza się :)

- wykład 31/41 Standaryzacja wykład standaryzacja wartości zmiennych w macierzy X wartość średnia każdej ze zmiennych wynosi 0 odchylenie standardowe wynosi 1 function [X_std, sr, sigma] = standaryzacja(x) X_std = X; sr = zeros(1, size(x, 2)); sigma = zeros(1, size(x, 2)); sr = mean(x); sigma = std(x); for i=1:(size(sr))+1, X_std(:,i) = (X(:,i).- sr(i)) / sigma(i); end end

- wykład 32/41 Wykresy rozrzutu wykład figure( Position,[200,300,1000,700]); subplot (2, 1, 1) plot(x(:,2),y, r*, MarkerSize, 10); xlabel( powierzchnia ); ylabel( cena ); subplot (2, 1, 2) plot(x(:,3),y, r*, MarkerSize, 10); xlabel( liczba lazienek ); ylabel( cena );

- wykład 33/41 Wykresy rozrzutu wykład

- wykład 34/41 Obliczenia i wynik wykład Bez standaryzacji Współczynniki regresji (b 0, b 1, b 2 ): 89597.91, 139.21, -8738.02 Równanie regresji: ŷ = 89597.91 + 139.21 pow 8738.02 ll Po standaryzacji Współczynniki regresji (b 0, b 1, b 2 ): 340412.66, 110631.05, -6649.47 Równanie regresji: ŷ = 340412.66 + 110631.05 pow 6649.47 ll

- wykład 35/41 Wykres regresji dwóch zmiennych wykład zz=zeros(m,1); for k=1:m zz(k)=b(1)*x(k,1) + b(2)*x(k,2) + b(3)*x(k,3); end plot3(x(:,2),x(:,3),y, r*, MarkerSize, 10); xlabel( powierzchnia ); ylabel( liczba lazienek ); hold on plot3(x(:,2),x(:,3),zz, bd, MarkerSize, 10); hold off

- wykład 36/41 Wykresy wykład

- wykład 37/41 Wykresy wykład

- wykład 38/41 Wykresy wykład

- wykład 39/41 wielokrotna wykład sz=length(pow); for p=1:sz cenapow(p)=b(1)*1.0 + b(2)*pow(p); end for l=1:sz cenall(l)=b(1)*1.0 + b(3)*ll(l); end subplot (1, 2, 1) plot(x(:,2),y, r*, MarkerSize, 10); hold on xlabel( powierzchnia ); ylabel( cena ); plot(pow,cenapow, k- ); hold off; subplot (1, 2, 2) plot(x(:,3),y, r*, MarkerSize, 10); hold on plot(ll,cenall, k- ); xlabel( liczba lazienek ); ylabel( cena ); hold off;

- wykład 40/41 wielokrotna wykład

- wykład 41/41 wykład W wykładzie wykorzystano materiały: D. Hand, H. Mannila, P. Smyth,, WNT, Warszawa 2005 D. T. Larose, Odkrywanie Wiedzy z Danych, Wydawnictwo Naukowe PWN, Warszawa 2006 http://pl.wikipedia.org/wiki/wikipedia: Skarbnica_Wikipedii/Przegl%C4%85d_zagadnie%C5% 84_z_zakresu_statystyki