Analiza skupień. Waldemar Wołyński, Tomasz Górecki. Wydział Matematyki i Informatyki UAM Poznań. 6 marca 2013
|
|
- Kajetan Antoni Matusiak
- 7 lat temu
- Przeglądów:
Transkrypt
1 Analiza skupień Waldemar Wołyński, Tomasz Górecki Wydział Matematyki i Informatyki UAM Poznań 6 marca 2013 W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
2 Idea: Analiza skupień jest narzędziem analizy danych służącym do grupowania n obiektów (jednostek) w K niepustych, rozłącznych i możliwie jednorodnych grup - skupień. Obiekty należące do danego skupienia powinny być podobne od siebie (używa się w tym celu różnych miar podobieństwa, a w zasadzie niepodobieństwa obiektów), a obiekty należące do różnych skupień powinny być z kolei możliwie mocno niepodobne do siebie. Głównym celem tej analizy jest wykrycie z zbiorze danych, tzw. naturalnych skupień, czyli skupień, które dają się w sensowny sposób interpretować. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
3 Naiwne rozwiązanie zagadnienia AS: Krok 1: Wybieramy kryterium optymalnego podziału obiektów. Krok 2: Ustalamy liczbę skupień K. Krok 3: Sprawdzamy wszystkie możliwe podziały zbioru n obiektów na K podzbiorów i wybieramy optymalny. Ile jest wszystkich możliwych podziałów? 1 K! K ( K ( 1) K k k k=1 ) k n. Np. dla 100 obiektów i czterech skupień jest to liczba rzędu 10 58!!! W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
4 Obiekt (jednostka) opisana za pomocą wektora p cech W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
5 Przykład Flea beetles Dane pochodzą z obserwacji 6 cech na 74 okazach chrząszczy skaczących. Lubishew (1962). W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
6 Algorytmy hierarchiczne Ideą algorytmów hierarchicznych jest wyznaczanie skupień poprzez łączenie (aglomerację) powstałych, w poprzednich krokach algorytmu, mniejszych skupień. Inne wersje tych algorytmów zamiast idei łączenia skupień, bazują na pomyśle ich dzielenia. Algorytm aglomeracyjny 1 W pierwszym kroku każdy z obiektów tworzy oddzielne skupienie. Zatem skupień tych jest n. 2 Łączymy (wiążemy ze sobą) dwa najbardziej podobne do siebie skupienia, zmniejszając w ten sposób liczbę skupień o jeden. 3 Powtarzamy krok drugi do momentu uzyskania zadeklarowanej, końcowej liczby skupień K lub do połączenia wszystkich obiektów w jedno skupienie. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
7 Miary niepodobieństwa obiektów 1 Odległość Minkowskiego: ( p ) 1/q ρ(x i, x j ) = x il x jl q, q 1. 2 Odległość Mahalanobisa: l=1 ρ(x i, x j ) = ((x i x j ) S 1 (x i x j )) 1/2. 3 Współczynnik podobieństwa Sneatha: ρ(x i, x j ) = 1 p I (x il x jl ). p Jeżeli dane są miary niepodobieństwa ρ(x il, x jl ), (l = 1,..., p) oddzielnie dla każdej z p cech, to za całkowitą miarę niepodobieństwa pomiędzy obiektami możemy przyjąć kombinację wypukłą miar brzegowych postaci ρ(x i, x j ) = p l=1 l=1 W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46 l=1 w 2 l ρ(x il, x jl ), p w 2 l = 1.
8 Metody wiązania skupień 1 Metoda pojedynczego wiązania (najbliższego sąsiedztwa). Miara niepodobieństwa pomiędzy dwoma skupieniami jest określona jako najmniejsza miara niepodobieństwa między dwoma obiektami należącymi do różnych skupień. 2 Metoda pełnego wiązania (najdalszego sąsiedztwa). Miara niepodobieństwa pomiędzy dwoma skupieniami jest określona jako największa miara niepodobieństwa między dwoma obiektami należącymi do różnych skupień. 3 Metoda średniego wiązania. Miara niepodobieństwa pomiędzy dwoma skupieniami jest określona jako średnia miara niepodobieństwa między wszystkimi parami obiektów należących do różnych skupień. 4 Metoda Warda. Miara niepodobieństwa pomiędzy dwoma skupieniami jest określona jako suma kwadratów odchyleń wewnątrz tych skupień. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
9 Dendrogram Graficzną ilustracją przebiegu aglomeracji jest wykres zwany dendrogramem. Jest to (binarne) drzewo którego węzły reprezentują skupienia, a liście pojedyncze obiekty. Liście umieszczone są na poziomie zerowym, pozostałe węzły drzewa umieszczone są na wysokości odpowiadającej mierze niepodobieństwa pomiędzy skupieniami reprezentowanymi przez węzły potomki. a) metoda pojedynczego wiązania, b) metoda pełnego wiązania, c) metoda średniego wiązania. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
10 Algorytmy niehierarchiczne Przyporządkowanie n obiektów do zadanej liczby skupień K, odbywa się niezależnie dla każdej wartości K - nie bazując na wyznaczonych wcześniej mniejszych lub większych skupieniach. Najbardziej popularnym, niehierarchicznym algorytmem analizy skupień jest algorytm K-średnich. Główną ideą tego algorytmu jest taka alokacja obiektów, która minimalizuje zmienność wewnątrz powstałych skupień, a co za tym idzie maksymalizuje zmienność pomiędzy skupieniami. Oznaczenia: C K funkcja, która każdemu obiektowi (dokładnie jego numerowi), przyporządkowuje numer skupienia do którego jest on przyporządkowany (przy podziale na K skupień), W (C K ) macierz zmienności wewnątrz skupień, B(C K ) macierz zmienności pomiędzy skupieniami. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
11 W algorytmie K-średnich minimalizujemy ślad macierzy zmienności wewnątrz skupień. Jeżeli CK jest funkcją realizującą optymalny podział n obiektów na K skupień, to C K = min C K tr[w (C K )] = min C K K k=1 C K (i)=k Algorytm K-średnich (x i x k ) (x i x k ). 1 W losowy sposób rozmieszczamy n obiektów w K skupieniach. Niech funkcja C (1) K opisuje to rozmieszczenie. 2 Dla każdego z K skupień obliczamy wektory średnich x k. 3 Rozmieszczamy ponownie obiekty w K skupieniach, w taki sposób że C (l) K (i) = arg min (x i x k ) (x i x k ). 1 k K 4 Powtarzamy kroki drugi i trzeci aż do momentu, gdy przyporządkowanie obiektów do skupień pozostanie niezmienione, tzn. aż do momentu, gdy C (l) K = C (l 1) K. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
12 Skupienia wyznaczone metodą K-średnich, a) K = 3, b) K = 4 W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
13 Inne algorytmy analizy skupień 1 Taksonomia wrocławska (algorytm ten jest równoważny algorytmowi aglomeracyjnemu opartemu na metodzie pojedynczego wiązania). 2 Algorytm K-medoid (odmiana algorytmu K-średnich dostosowana zwłaszcza do danych jakościowych). 3 EM-clustering (zakładamy, że rozkład prawdopodobieństwa analizowanych cech daje się opisać za pomocą rozkładu prawdopodobieństwa będącego mieszaniną K rozkładów odpowiadających podziałowi na K skupień). 4 Sieci samoorganizujące się (SOM). W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
14 Optymalna liczba skupień Minimalizacja zmienności wewnątrz skupień. Wartości W K = log(tr(w (C K ))) dla metody K-średnich. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
15 Optymalna liczba skupień Indeks Calińskiego-Harabasza (1974): CH(K) = tr(b(c K ))/(K 1) tr(w (C K ))/(n K). Optymalną wartość K dobieramy tak, aby zmaksymalizować indeks CH(K). W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
16 Optymalna liczba skupień Statystyka odstępu (Hastie, Tibshirani, Walther, 2001): Gap(K) = W K W K, przy czym, w celu uzyskania wartości WK, dla każdej z p-zmiennych generujemy n obserwacji z rozkładu jednostajnego na przedziale wyznaczonym przez zakres wartości tej zmiennej w pierwotnym zbiorze danych. Symulację tę powtarzamy B razy (zazwyczaj B = 20) i dla tak wyznaczonego, sztucznego zbioru danych obliczamy wartości WK b (b = 1, 2,..., B). Niech WK i s K oznaczają średnią i odchylenie standardowe obliczone na podstawie wartości WK 1,..., W K B. Ponadto, niech s K = 1 (1/B)sK. Jako optymalną liczbę skupień przyjmujemy najmniejsze K dla którego Gap(K) Gap(K + 1) s K+1. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
17 Optymalna liczba skupień W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
18 Optymalna liczba skupień Współczynnik zarysu (Kaufman, Rousseeuw, 1990). Indeks Hartigana (1975). Indeks Daviesa-Bouldina (1979). Indeks Krzanowskiego-Lai (1988). Pakiet ClusterSim(R) autorstwa Marka Walesiaka i Andrzeja Dudka, pozwala na obliczenie 8 różnych indeksów związanych z wyznaczaniem optymalnej liczby skupień. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
19 Analiza skupień dla populacji złożonych z obiektów (jednostek) opisanych za pomocą wektora p cech W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
20 Przykład Słoneczniki Dane pochodzą z badań hodowlanych nad rodami słonecznika prowadzonych w Stacji Hodowli Roślin IHAR w Borowie. Liczba rodów słonecznika - 11, liczba cech - 5. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
21 Miary niepodobieństwa populacji 1 Odległość euklidesowa: 2 Odległość Mahalanobisa: ρ(π i, π j ) = (( x i x j ) ( x i x j )) 1/2. ρ(π i, π j ) = (( x i x j ) S 1 ( x i x j )) 1/2. 3 Odległość Bhattacharyya: ρ(π i, π j ) = 1 8 ( x i x j ) S 1 ( x j x j ) + 1 ( ) S 2 ln, S i S j gdzie S = S i + S j. 2 W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
22 Taksonomia wrocławska 1 Rozpinamy na zbiorze n obiektów najkrótszy dendryt, zbudowany na bazie wybranej odległości (miary niepodobieństwa) pomiędzy obiektami. 2 Wydzielamy skupienia poprzez usunięcie najdłuższych jego krawędzi. Dokładnie, niech ρ i oznacza wagę i-tej krawędzi dendrytu. Obliczamy średnią ρ i odchylenie standardowe s ρ wag wszystkich jego krawędzi, a następnie usuwamy te z nich dla których ρ i > ρ + cs ρ, przy czym stałą c przyjmujemy zazwyczaj z przedziału [1, 3]. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
23 Konstrukcja najkrótszego dendrytu Algorytm Kruskala 1 Wybieramy krawędź o minimalnej wadze. 2 Z pozostałych krawędzi wybieramy tę o najmniejszej wadze, która nie prowadzi do cyklu (z krawędzi o jednakowych wagach wybieramy dowolną). 3 Powtarzamy krok drugi, aż do uzyskania najkrótszego dendrytu. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
24 Skupienia wyznaczone metodą taksonomii wrocławskiej Minimalny dendryt spinający. Usunięto krawędzie przyjmując c=1.25. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
25 Progowa wartość odległości pomiędzy obiektami Załóżmy, że π i N p (µ i Σ), Σ > 0. Miarę niepodobieństwa populacji π i oraz π j definiujemy następująco: 2 ij = (µ i µ j ) Σ 1 (µ i µ j ). Jest to kwadrat odległości Mahalanobisa. Oceną miary 2 ij jest wielkość ρ(π i, π j ) postaci ρ(π i, π j ) = ( x i x j ) S 1 ( x i x j ). W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
26 Progowa wartość odległości pomiędzy obiektami Niech H 0 będzie hipotezą postaci: H 0 : 12 = 23 = = K 1,K = 0. Hipotezę H 0 możemy zapisać jako przekrój hipotez H ij : ij = 0, i, j = 1, 2,..., K, j i. Hipotezy H ij będziemy nazywać hipotezami implikowanymi przez hipotezę H 0. Jeżeli hipotezę H 0 odrzucimy, to możemy dokonać porównań wielokrotnych między k populacjami, tj. możemy zweryfikować K(K 1)/2 hipotez H ij o braku istotności różnic między populacjami, przy czym miarą różnicy dwóch populacji jest ich odległość ij. Do weryfikacji tych hipotez możemy zastosować jednoczesną procedurę testową podaną przez Gabriela (1968). W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
27 Progowa wartość odległości pomiędzy obiektami Hipoteza H 0 : 12 = 23 = = K 1,K = 0 jest równoważna hipotezie H 0 : µ 1 = µ 2 = = µ K. Hipotezę H 0 możemy weryfikować za pomocą jednej z dwóch statystyk: Λ lub T 2. Załóżmy, że użyjemy statystyki Λ. Jeżeli m E p oraz m H p, to Λ = gdzie m H = K 1, m E = n K. E E + H Λ p,m H,m E, Jeżeli m E p > m H, to Λ Λ mh,p,m E +m H p. Hipotezę H 0 odrzucamy wówczas, gdy Λ Λ p,mh,m E (α), gdzie P(Λ Λ p,mh,m E (α) H 0 ) = α. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
28 Progowa wartość odległości pomiędzy obiektami Załóżmy, że użyjemy statystyki T 2. Jeżeli m E p oraz m H p, to gdzie m H = K 1, m E = n K. T 2 = tr(he 1 ) T 2 p,m H,m E, Jeżeli m E p > m H, to T 2 T 2 m H,p,m E +m H p. Hipotezę H 0 odrzucamy wówczas, gdy T 2 T 2 p,m H,m E (α), gdzie P(T 2 T 2 p,m H,m E (α) H 0 ) = α. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
29 Progowa wartość odległości pomiędzy obiektami Z drugiej strony hipoteza ij = 0 jest równoważna hipotezie H ij : µ i = µ j, dla i, j = 1, 2,..., K, j i. Hipotezę H ij weryfikujemy za pomocą statystyki T 2 ij = n in j n i + n j ( X i X j ) S 1 ( X i X j ), gdzie S = 1 m E E, i, j = 1, 2,..., K, j i. W przypadku, gdy K = 2 i rozpatrujemy populacje π i oraz π j, zachodzą związki ( Λ = ) 1 ( ) 1 Tij 2 lub Tij 2 = m E m E Λ 1 oraz T 2 = 1 Tij 2 lub Tij 2 = m E T 2. m E W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
30 Przykład - Słoneczniki Wartości statystyk Tij 2: π 2 π 3 π 4 π 5 π 6 π 7 π 8 π 9 π 10 π 11 π π π π π π π π π π Wspólna wartość krytyczna, na poziomie istotności α = 0.05, dla wartości T 2 ij jest równa: dla statystyki Λ , a dla statystyki T Zarówno dla kryterium Λ jak i T 2 uzyskujemy podział 11 rodów hodowlanych słonecznika na 4 skupienia: I. 1,6,10 II. 2,3,4,5,8,9 III. 7 IV. 11 W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
31 Analiza skupień dla obiektów (jednostek) opisanych za pomocą szeregu czasowego W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
32 Definicja szeregu czasowego Szereg czasowy to sekwencja obserwacji, które uporządkowane są w czasie lub w przestrzeni (Box, Jenkins i Reisel, 2008). Dla prostoty i bez straty ogólności założymy, że czas jest dyskretny. Formalnie, szereg czasowy to sekwencja par T = [(x 1, t 1 ), (x 2, t 2 ),..., (x n, t n )] (t 1 < t 2 <... < t n ), gdzie każdy x i jest punktem w d-wymiarowej przestrzeni, a każdy moment czasowy t i jest chwilą, w której zaszedł x i. Jeśli momenty czasowe dwóch szeregów są takie same, możemy je ominąć i rozważać jedynie sekwencje d-wymiarowych punktów. Taka reprezentacja jest nazywana surową. Liczba punktów n w szeregu czasowym jest nazywana jego długością. Na razie skupimy się na szeregach jednowymiarowych, które oznaczymy x i, i = 1, 2,..., n. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
33 Odległość pomiędzy szeregami czasowymi Jaka miara odległości jest najlepsza do porównania szeregów X oraz Y? W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
34 Odległość pomiędzy szeregami czasowymi Miara odległości taksówkowej, czyli d(x, Y ) = n x i y i oraz odległości i=1 n euklidesowej, czyli d(x, Y ) = (x i y i ) 2 i=1 W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
35 Odległość pomiędzy szeregami czasowymi Miara odległości wyznaczona za pomocą algorytmu DTW. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
36 Algorytm DTW DTW (ang. dynamic time warping) jest doskonale znaną techniką wykorzystywaną do znajdowania optymalnego wyrównania dwóch szeregów czasowych. Pierwotnie DTW było wykorzystywane do porównywania wzorców wymowy w automatycznym rozpoznawaniu mowy. Jest to metoda, która wyznacza odległość pomiędzy dwoma szeregami czasowymi, przy czym dopuszczamy pewne transformacje czasu. Aby znaleźć odległość DTW wpierw konstruujemy macierz, której element (i, j) odpowiada np. d(x i, y j ) = x i y j. Następnie poszukujemy minimalnej skumulowanej odległości przechodząc przez tę macierz. Odległość DTW odpowiada ścieżce o minimalnym koszcie: DTW(X, Y ) = min K w k, gdzie w k jest elementem macierzy kosztów, który należy do ścieżki W. k=1 W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
37 Algorytm DTW Ścieżkę tę konstruujemy przy trzech dodatkowych warunkach: w 1 = (1, 1) oraz w K = (n, n) (warunki brzegowe, dopasowanie nie jest wykonane na fragmentach szeregów), Dla w k = (a, b) i w k 1 = (a, b ), a a 1 i b b 1 (ciągłość, żadne punkty nie są pomijane), Dla w k = (a, b) i w k 1 = (a, b ), a a 0 i b b 0 (monotoniczność, podobne fragmenty są łączone tylko raz). Aby wyznaczyć taką ścieżkę używamy programowania dynamicznego, w którym wykorzystywane jest następujące równanie rekurencyjne: γ(i, j) = d(x i, y j ) + min{γ(i 1, j 1), γ(i 1, j), γ(i, j 1)}, gdzie d(x i, y j ) jest odległością w danej komórce, a γ(i, j) jest skumulowaną odległością d(x i, y j ) oraz minimum z trzech przyległych skumulowanych odległości. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
38 Algorytm DTW przykład Rozważy dwa szeregi X = (1, 2, 3, 4, 5) oraz Y = (2, 4, 6, 8, 10). Skonstruujmy dla nich macierz kosztów D. Ma ona postać: D = Y }{{} X W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
39 Algorytm DTW przykład Następnie konstruujemy macierz kosztów skumulowanych. Wpierw wypełniamy lewy dolny róg tej macierzy. Mamy: γ(1, 1) = d(1, 1) = 1. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
40 Algorytm DTW przykład Następnie wypełniamy pierwszy wiersz i pierwszą kolumnę: γ(1, j) = d(i, j) + γ(1, j 1), γ(i, 1) = d(i, j) + γ(i 1, 1). W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
41 Algorytm DTW przykład Wyznaczamy: γ(2, 2) = d(2, 2) + min{γ(1, 1), γ(1, 2), γ(2, 1)} = = 2 + min{1, 4, 1} = 3 W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
42 Algorytm DTW przykład Analogicznie wypełniamy resztę tablicy. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
43 Algorytm DTW przykład Po wyznaczeniu całej macierzy Γ wyznaczamy optymalną ścieżkę z lewego dolnego rogu do prawego górnego. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
44 Algorytm DTW przykład Ostatecznie otrzymujemy: 5 d(x, Y ) = x i y i = 15, i=1 DTW(X, Y ) = 11. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
45 Algorytm DTW okno Często do wspomnianych wcześniej trzech warunków dodaje się jeszcze jeden, który mówi o tym, że dobra ścieżka nie może być zbyt daleko od przekątnej. Dwa najpopularniejsze to: Równoległobok Itakury, Pasmo Sakoe-Chiby. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
46 Przykład Dane dotyczą liczby zgonów z powodu AIDS w 20 krajach Europy w latach Zostały zaczerpnięte z bazy: W przypadku danych dotyczących chorób zakaźnych często mamy do czynienia z sytuacją kiedy dwa szeregi mają podobna strukturę, ale są przesunięte w czasie (np. gdy szczyt umieralności (zapadalności) w danym obszarze występuje wcześniej/później niż w innym). W takich przypadkach odległość DTW jest bardziej odpowiednia niż odległość euklidesowa. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
47 Przykład Przeprowadzona została hierarchiczna analiza skupień wykorzystująca odległość euklidesową oraz odległość DTW. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
48 Przykład Dendrogram dla odległości euklidesowej, metoda Warda wiązania skupień. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
49 Przykład Dendrogram dla odległości DTW, metoda Warda wiązania skupień. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
50 Przykład Trajektorie szeregów czasowych dla pięciu wybranych krajów. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
51 Przykład Macierz ciepła dla odległości DTW. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
52 Przykład Macierz ciepła dla odległości euklidesowej. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
53 R dtw(dtw) odległość DTW pomiędzy dwoma szeregami, dtwdist(dtw) macierz odległości DTW, dist(proxy) lub dist(stats) macierz odległości, heatmap.2(gplots) mapa ciepła. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
54 Analiza skupień dla obiektów (jednostek) opisanych za pomocą wektora p funkcji W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
55 Przykład Canadian weather Dane pochodzą z 35 stacji meteorologicznych, z lat Dostępne w pakiecie fda(r). W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
56 Wielowymiarowe dane funkcjonalne n niezależnych realizacji p-wymiarowego procesu losowego {x i (t), i = 1, 2,... n, t [0, T ]} x(t) = X 1 (t). X p (t). W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
57 Wielowymiarowe dane funkcjonalne Konwersja danych dyskretnych {t ij, x ij = x i (t ij )}, i = 1,..., n, j = 1,..., J i do danych funkcjonalnych. Niech m l x il (t) = c ilk φ lk (t), i = 1,..., n, l = 1,..., p, k=1 gdzie φ l1,..., φ lml są funkcjami bazowymi w L 2 ([0, T ]). Stąd x i (t) = Φ(t)c i, gdzie Φ(t) = φ 11(t) φ 1m1 (t) φ 21(t) φ 2m2 (t) φ p1(t) φ pmp (t) c i = (c i11,..., c i1m1, c i21,..., c i2m2,..., c ip1,..., c ipmp )., W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
58 Wielowymiarowe dane funkcjonalne Niech x i = x i1. x iji, Φ i = Φ(t i1 ). Φ(t iji ). Współczynniki c i szacujemy metodą najmniejszych kwadratów, tzn. ĉ i = (Φ iφ i ) 1 Φ i x i. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
59 Miary niepodobieństwa obiektów T ρ(x i, x j ) = = 0 (x i (t) x j (t)) (x i (t) x j (t))dt, (c i c j ) W(c i c j ), gdzie W = T 0 Φ(t) Φ(t)dt. Uwaga: Odległości pomiędzy obiektami możemy również wyznaczyć wykorzystując pochodne Dx i (t). W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
60 Skupienia wyznaczone metodą K-średnich, K = 4. Rysunki pochodzą z pracy: J. Jacques, C. Preda, Model-based clustering for multivariate functional data, Computational Statistics and Data Analysis, in press. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
61 Skupienia wyznaczone metodą EM. Rysunek pochodzi z pracy: J. Jacques, C. Preda, Model-based clustering for multivariate functional data, Computational Statistics and Data Analysis, in press. W. Wołyński, T. Górecki (UAM) Analiza skupień 6 marca / 46
Analiza skupień. Idea
Idea Analiza skupień Analiza skupień jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień.
Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień
Idea jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień. Obiekty należące do danego skupienia
Analiza skupień. Idea
Idea Analiza skupień Analiza skupień jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień.
Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW
Zlot użytkowników R Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW Paweł Teisseyre Instytut Podstaw Informatyki, Polska Akademia Nauk 21 września 2010 Miary podobieństwa między szeregami
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Analiza skupień. Idea
Idea Analiza skupień Analiza skupień jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień.
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization
Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne
Testowanie hipotez statystycznych.
Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie
Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407
Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Weryfikacja hipotez dotyczących postaci nieznanego rozkładu -Testy zgodności.
Algorytmy metaheurystyczne Wykład 11. Piotr Syga
Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,
Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość
Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę
Analiza współzależności zjawisk
Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.
Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II
Wykład 6. Drzewa cz. II 1 / 65 drzewa spinające Drzewa spinające Zliczanie drzew spinających Drzewo T nazywamy drzewem rozpinającym (spinającym) (lub dendrytem) spójnego grafu G, jeżeli jest podgrafem
Spacery losowe generowanie realizacji procesu losowego
Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z
Zagadnienie klasyfikacji (dyskryminacji)
Zagadnienie klasyfikacji (dyskryminacji) Przykład Bank chce klasyfikować klientów starających się o pożyczkę do jednej z dwóch grup: niskiego ryzyka (spłacających pożyczki terminowo) lub wysokiego ryzyka
Wnioskowanie statystyczne i weryfikacja hipotez statystycznych
Wnioskowanie statystyczne i weryfikacja hipotez statystycznych Wnioskowanie statystyczne Wnioskowanie statystyczne obejmuje następujące czynności: Sformułowanie hipotezy zerowej i hipotezy alternatywnej.
Kolokwium ze statystyki matematycznej
Kolokwium ze statystyki matematycznej 28.05.2011 Zadanie 1 Niech X będzie zmienną losową z rozkładu o gęstości dla, gdzie 0 jest nieznanym parametrem. Na podstawie pojedynczej obserwacji weryfikujemy hipotezę
Programowanie liniowe
Badania operacyjne Problem Model matematyczny Metoda rozwiązania Znaleźć optymalny program produkcji. Zmaksymalizować 1 +3 2 2 3 (1) Przy ograniczeniach 3 1 2 +2 3 7 (2) 2 1 +4 2 12 (3) 4 1 +3 2 +8 3 10
Skalowanie wielowymiarowe idea
Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy
Metoda największej wiarygodności
Rozdział Metoda największej wiarygodności Ogólnie w procesie estymacji na podstawie prób x i (każde x i może być wektorem) wyznaczamy parametr λ (w ogólnym przypadku również wektor) opisujący domniemany
Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania
Prognozowanie i Symulacje. Wykład I. e-mail:e.kozlovski@pollub.pl Spis treści Szeregi czasowe 1 Szeregi czasowe 2 3 Szeregi czasowe Definicja 1 Szereg czasowy jest to proces stochastyczny z czasem dyskretnym
Elementy statystyki STA - Wykład 5
STA - Wykład 5 Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza 1 ANOVA 2 Model jednoczynnikowej analizy wariancji Na model jednoczynnikowej analizy wariancji możemy traktować jako uogólnienie
Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska
Algorytmy rozpoznawania obrazów 11. Analiza skupień dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Analiza skupień Określenia: analiza skupień (cluster analysis), klasteryzacja (clustering), klasyfikacja
Programowanie liniowe
Programowanie liniowe Maciej Drwal maciej.drwal@pwr.wroc.pl 1 Problem programowania liniowego min x c T x (1) Ax b, (2) x 0. (3) gdzie A R m n, c R n, b R m. Oznaczmy przez x rozwiązanie optymalne, tzn.
Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633
Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru
Estymacja parametrów w modelu normalnym
Estymacja parametrów w modelu normalnym dr Mariusz Grządziel 6 kwietnia 2009 Model normalny Przez model normalny będziemy rozumieć rodzine rozkładów normalnych N(µ, σ), µ R, σ > 0. Z Centralnego Twierdzenia
O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka
O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka Katedra Zastosowań Matematyki i Informatyki Uniwersytet Przyrodniczy w Lublinie Wisła 2012, 7.12.2012 Plan prezentacji 1 Wprowadzenie
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Testowanie hipotez statystycznych.
Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie
Testowanie hipotez statystycznych.
Bioinformatyka Wykład 4 Wrocław, 17 października 2011 Temat. Weryfikacja hipotez statystycznych dotyczących wartości oczekiwanej w dwóch populacjach o rozkładach normalnych. Model 3. Porównanie średnich
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1
Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.
Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ
Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych
Jądrowe klasyfikatory liniowe
Jądrowe klasyfikatory liniowe Waldemar Wołyński Wydział Matematyki i Informatyki UAM Poznań Wisła, 9 grudnia 2009 Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 1 / 19 Zagadnienie
Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.
Literatura Krysicki W., Bartos J., Dyczka W., Królikowska K, Wasilewski M., Rachunek Prawdopodobieństwa i Statystyka Matematyczna w Zadaniach, cz. I. Leitner R., Zacharski J., Zarys matematyki wyŝszej
Testy post-hoc. Wrocław, 6 czerwca 2016
Testy post-hoc Wrocław, 6 czerwca 2016 Testy post-hoc 1 metoda LSD 2 metoda Duncana 3 metoda Dunneta 4 metoda kontrastów 5 matoda Newman-Keuls 6 metoda Tukeya Metoda LSD Metoda Least Significant Difference
Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa
Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa Test serii (test Walda-Wolfowitza) Założenie. Rozpatrywane rozkłady są ciągłe. Mamy dwa uporządkowane
PROGRAMOWANIE KWADRATOWE
PROGRAMOWANIE KWADRATOWE Programowanie kwadratowe Zadanie programowania kwadratowego: Funkcja celu lub/i co najmniej jedno z ograniczeń jest funkcją kwadratową. 2 Programowanie kwadratowe Nie ma uniwersalnej
Rozdział 8. Regresja. Definiowanie modelu
Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność
Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu
Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotności, p-wartość i moc testu Wrocław, 01.03.2017r Przykład 2.1 Właściciel firmy produkującej telefony komórkowe twierdzi, że wśród jego produktów
VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15
VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady
Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania
Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja
KADD Minimalizacja funkcji
Minimalizacja funkcji Poszukiwanie minimum funkcji Foma kwadratowa Metody przybliżania minimum minimalizacja Minimalizacja w n wymiarach Metody poszukiwania minimum Otaczanie minimum Podział obszaru zawierającego
Rozkłady wielu zmiennych
Rozkłady wielu zmiennych Uogólnienie pojęć na rozkład wielu zmiennych Dystrybuanta, gęstość prawdopodobieństwa, rozkład brzegowy, wartości średnie i odchylenia standardowe, momenty Notacja macierzowa Macierz
Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1
Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT Anna Rajfura 1 Przykład wprowadzający Wiadomo, że 40% owoców ulega uszkodzeniu podczas pakowania automatycznego.
Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak
Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin Henryk Bujak e-mail: h.bujak@ihar.edu.pl Ocena różnorodności fenotypowej Różnorodność fenotypowa kolekcji roślinnych zasobów
STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.
STATYSTYKA MATEMATYCZNA WYKŁAD 4 WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. Wysuwamy hipotezy: zerową (podstawową H ( θ = θ i alternatywną H, która ma jedną z
Czym jest analiza skupień?
Statystyczna analiza danych z pakietem SAS Analiza skupień metody hierarchiczne Czym jest analiza skupień? wielowymiarowa technika pozwalająca wykrywać współzależności między obiektami; ściśle związana
Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Ważne rozkłady i twierdzenia c.d.
Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby
Programowanie celowe #1
Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem
Wykład 10 Skalowanie wielowymiarowe
Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów
b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:
ROZWIĄZANIA I ODPOWIEDZI Zadanie A1. Można założyć, że przy losowaniu trzech kul jednocześnie kolejność ich wylosowania nie jest istotna. A więc: Ω = 20 3. a) Niech: - wśród trzech wylosowanych opakowań
Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa
Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa M. Czoków, J. Piersa 2012-01-10 1 Łańcucha Markowa 2 Istnienie Szukanie stanu stacjonarnego 3 1 Łańcucha Markowa 2 Istnienie Szukanie stanu stacjonarnego
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH
Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych
Statystyka matematyczna. Wykład IV. e-mail:e.kozlovski@pollub.pl Spis treści 1 2 3 Definicja 1 Hipoteza statystyczna jest to przypuszczenie dotyczące rozkładu (wielkości parametru lub rodzaju) zmiennej
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych
Rozkłady prawdopodobieństwa
Tytuł Spis treści Wersje dokumentu Instytut Matematyki Politechniki Łódzkiej 10 grudnia 2011 Spis treści Tytuł Spis treści Wersje dokumentu 1 Wartość oczekiwana Wariancja i odchylenie standardowe Rozkład
Układy równań i nierówności liniowych
Układy równań i nierówności liniowych Wiesław Krakowiak 1 grudnia 2010 1 Układy równań liniowych DEFINICJA 11 Układem równań m liniowych o n niewiadomych X 1,, X n, nazywamy układ postaci: a 11 X 1 + +
SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania
SIMR 7/8, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania. Dana jest gęstość prawdopodobieństwa zmiennej losowej ciągłej X : { a( x) dla x [, ] f(x) = dla pozostałych x Znaleźć: i) Wartość parametru
Funkcje charakterystyczne zmiennych losowych, linie regresji 1-go i 2-go rodzaju
Funkcje charakterystyczne zmiennych losowych, linie regresji -go i 2-go rodzaju Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Testy nieparametryczne
Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów
166 Wstęp do statystyki matematycznej
166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej
Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.
Wykład 4 Rozkłady i ich dystrybuanty Dwa typy zmiennych losowych Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x, x 2,...}, to mówimy, że jest to zmienna dyskretna.
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Stosowana Analiza Regresji
Stosowana Analiza Regresji Wykład VIII 30 Listopada 2011 1 / 18 gdzie: X : n p Q : n n R : n p Zał.: n p. X = QR, - macierz eksperymentu, - ortogonalna, - ma zera poniżej głównej diagonali. [ R1 X = Q
Hipotezy statystyczne
Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o którego prawdziwości lub fałszywości wnioskuje się na podstawie pobranej próbki losowej. Hipotezy
Wykład 12 Testowanie hipotez dla współczynnika korelacji
Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 23 maja 2018 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem
... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).
Egzamin ze Statystyki Matematycznej, WNE UW, wrzesień 016, zestaw B Odpowiedzi i szkice rozwiązań 1. Zbadano koszt 7 noclegów dla 4-osobowej rodziny (kwatery) nad morzem w sezonie letnim 014 i 015. Wylosowano
Hipotezy statystyczne
Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o którego prawdziwości lub fałszywości wnioskuje się na podstawie pobranej
Matematyka II. Bezpieczeństwo jądrowe i ochrona radiologiczna Semestr letni 2018/2019 wykład 13 (27 maja)
Matematyka II Bezpieczeństwo jądrowe i ochrona radiologiczna Semestr letni 208/209 wykład 3 (27 maja) Całki niewłaściwe przedział nieograniczony Rozpatrujemy funkcje ciągłe określone na zbiorach < a, ),
EGZAMIN MAGISTERSKI, Biomatematyka
Biomatematyka 80...... Zadanie 1. (8 punktów) Załóżmy, że w diploidalnej populacji kojarzącej się w sposób losowy, w loci o dwóch allelach A i a 36% osobników tej populacji ma genotyp aa. (a) Jaka cześć
Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska
Porównanie modeli statystycznych Monika Wawrzyniak Katarzyna Kociałkowska Jaka jest miara podobieństwa? Aby porównywać rozkłady prawdopodobieństwa dwóch modeli statystycznych możemy użyć: metryki dywergencji
PROGRAMOWANIE NIELINIOWE
PROGRAMOWANIE NIELINIOWE Maciej Patan Uniwersytet Zielonogórski WSTEP Zadanie programowania nieliniowego (ZPN) min f(x) g i (x) 0, h i (x) = 0, i = 1,..., m g i = 1,..., m h f(x) funkcja celu g i (x) i
Obliczenia iteracyjne
Lekcja Strona z Obliczenia iteracyjne Zmienne iteracyjne (wyliczeniowe) Obliczenia iteracyjne wymagają zdefiniowania specjalnej zmiennej nazywanej iteracyjną lub wyliczeniową. Zmienną iteracyjną od zwykłej
Wykład 12 Testowanie hipotez dla współczynnika korelacji
Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 24 maja 2017 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem
Procesy stochastyczne
Wykład I: Istnienie procesów stochastycznych 21 lutego 2017 Forma zaliczenia przedmiotu Forma zaliczenia Literatura 1 Zaliczenie ćwiczeń rachunkowych. 2 Egzamin ustny z teorii 3 Do wykładu przygotowane
E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne
E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne Przypominajka: 152 drzewo filogenetyczne to drzewo, którego liśćmi są istniejące gatunki, a węzły wewnętrzne mają stopień większy niż jeden i reprezentują
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna
Ćwiczenie 4 ANALIZA KORELACJI, BADANIE NIEZALEŻNOŚCI Analiza korelacji jest działem statystyki zajmującym się badaniem zależności pomiędzy rozkładami dwu lub więcej badanych cech w populacji generalnej.
5. Analiza dyskryminacyjna: FLD, LDA, QDA
Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną
Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa
Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie
KADD Minimalizacja funkcji
Minimalizacja funkcji n-wymiarowych Forma kwadratowa w n wymiarach Procedury minimalizacji Minimalizacja wzdłuż prostej w n-wymiarowej przestrzeni Metody minimalizacji wzdłuż osi współrzędnych wzdłuż kierunków
II. FUNKCJE WIELU ZMIENNYCH
II. FUNKCJE WIELU ZMIENNYCH 1. Zbiory w przestrzeni R n Ustalmy dowolne n N. Definicja 1.1. Zbiór wszystkich uporzadkowanych układów (x 1,..., x n ) n liczb rzeczywistych, nazywamy przestrzenią n-wymiarową
Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego
Rozdział 1 Statystyki Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego X = (X 1,..., X n ). Uwaga 1 Statystyka jako funkcja wektora zmiennych losowych jest zmienną losową
Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której
SIMR 2016/2017, Analiza 2, wykład 1, Przestrzeń wektorowa
SIMR 06/07, Analiza, wykład, 07-0- Przestrzeń wektorowa Przestrzeń wektorowa (liniowa) - przestrzeń (zbiór) w której określone są działania (funkcje) dodawania elementów i mnożenia elementów przez liczbę
Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.
tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1
II. Równania autonomiczne. 1. Podstawowe pojęcia.
II. Równania autonomiczne. 1. Podstawowe pojęcia. Definicja 1.1. Niech Q R n, n 1, będzie danym zbiorem i niech f : Q R n będzie daną funkcją określoną na Q. Równanie różniczkowe postaci (1.1) x = f(x),
Kolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w
Metoda Simpleks Jak wiadomo, problem PL z dowolną liczbą zmiennych można rozwiązać wyznaczając wszystkie wierzchołkowe punkty wielościanu wypukłego, a następnie porównując wartości funkcji celu w tych
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Statystyka opisowa. Wykład V. Regresja liniowa wieloraka
Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +