Predykcja i optymalizacja wielokryterialna w zastosowaniu do prognozowania zużycia energii elektrycznej i sprzedaży leków.

Wielkość: px
Rozpocząć pokaz od strony:

Download "Predykcja i optymalizacja wielokryterialna w zastosowaniu do prognozowania zużycia energii elektrycznej i sprzedaży leków."

Transkrypt

1 Uniwersytet Mikołaja Kopernika Wydział Matematyki i Informatyki Praca magisterska Predykcja i optymalizacja wielokryterialna w zastosowaniu do prognozowania zużycia energii elektrycznej i sprzedaży leków. Marcin Szupke Promotor: Włodzisław Duch Toruń, 2008

2

3 ...

4

5 Spis treści Spis treści i 1 ICA - Metoda Niezależnych Składowych Wprowadzenie Metoda Niezależnych Składowych Definicje Dwuznaczność Metody Niezależnych Składowych Ilustracja ICA Niezależność Definicja i fundamentalne zasady Nieskorelowane zmienne są jedynie częściowo niezależne Dlaczego rozkład normalny nie jest dopuszczalny? Zasady estymacji ICA Nongaussian jest niezależny Miary non-gaussowe Minimalizacja informacji wzajemnej Maksymalna estymacja prawdopodobieństwa Związek z wzajemną informacją ICA i Projection Pursuit Preprocessing ICA Centrowanie Wybielanie Dalszy preprocessing Algorytm FastICA FastICA dla jednej jednostki FastICA dla wielu jednostek FastICA i maksymalne prawdopodobieństwo Właściwości algorytmu FastICA i

6 ii SPIS TREŚCI 2 Tytuł drugiego rozdziału 27 Bibliografia 29 A Tytuł dodatku 33 Spis symboli i skrótów 35 Spis rysunków 36 Spis tabel 37 Skorowidz 39

7 Podziękowania... jakiś tekst... 1

8

9 Rozdział 1 ICA - Metoda Niezależnych Składowych 1.1 Wprowadzenie Głównym problemem w badaniu sieci neuronowych (tak jak w wielu innych dziedzinach) jest znalezienie odpowiedniej reprezentacji wielo-zmiennych danych (np. wektor losowy). Dla celów obliczeniowych i prostoty koncepcyjnej przyjmuje się reprezentację jako kombinację liniową danych oryginalnych (wejściowych). Innymi słowy każdy komponent reprezentacji jest kombinacją liniową oryginalnych zmiennych. Znanymi metodami transformacji liniowych są Analiza Głównych składowych (PCA - Principal Component Analysis), Analiza Czynnikowa (FA - Factor Analysis) i Projection Pursuit (po polsku??). Metoda Niezależnych Składowych (ICA - Independent Component Analysis) jest obecnie rozwijaną metodą, której celem jest znalezienie liniowej reprezentacji nongaussian (nie-gausowskich) danych, których elementy są statystycznie niezależne lub tak niezależne jak to tylko możliwe. Taka reprezentacja jest często niezbędną strukturą danych wielu aplikacji, np: Wybór Cech (feature extraction), Analiza Sygnałów (Signal Separation). Wyobraźmy sobie pokój, w którym są dwie osoby mówiące w tym samym momencie. Mamy dwa mikrofony będące w dwóch różnych miejscach pokoju. Mikrofony nagrywają dwa sygnały, które można zapisać jako: x 1 (t) i x 2 (t), gdzie x 1 i x 2 są amplitudami a t oznacza czas. Każdy z tych dwóch zapisanych sygnałów jest ważoną sumą sygnałów mowy emitowanych przez rozmówców oznaczonych jako s 1 (t) i s 2 (t). Można to zapisać jako równanie liniowe: x 1 (t) = a 1,1 s 1 + a 1,2 s 2 (1.1) x 2 (t) = a 2,1 s 1 + a 2,2 s 2 (1.2) 3

10 4 ROZDZIAŁ 1. ICA - METODA NIEZALEŻNYCH SKŁADOWYCH gdzie a1, 1, a 1,2, a 2,1 i a 2,2 są parametrami odległości rozmówców od mikrofonu. Byłoby bardzo pożyteczne gdyby można było estymować dwa oryginalne sygnały mowy s 1 (t) i s 2 (t) używając jedynie zarejestrowanych sygnałów x 1 (t) i x 2 (t). Taka sytuacja nazywa się problemem koktajl-party. 1.2 Metoda Niezależnych Składowych Definicje Aby rygorystycznie zdefiniować ICA można wykorzystać statystyczny model zmiennych nieobserwowalnych (latent variables). Przypuśćmy, że zaobserwowaliśmy n liniowych składników x 1,..., x n z n niezależnych komponentów, wówczas x j = a j,1 s 1 + a j,2 s a j,n s n (1.3) dla wszystkich j. Jak do tej pory nie uwzględnialiśmy indeksu czasu t; w modelu ICA założyliśmy, że każda składowa x j jak również każdy niezależny komponent s k jest zmienną losową, zamiast sygnałem występującym w odpowiednim czasie. Zaobserwowane wartości x j (t) (np. sygnały nagrywane przez mikrofony w problemie koktajl-party) są zatem próbkami tych zmiennych losowych. Bez straty ogólności możemy założyć, że zmienne składowe oraz niezależne komponenty posiadają zerową wartość oczekiwaną. Jeśli to nie jest prawda wówczas obserwowane zmienne x i mogą zawsze być wyśrodkowane poprzez odejmowanie prostych średnich w taki sposób, aby model miał zerową wartość oczekiwaną. Wygodnie jest używać zapisu wektorowego lub macierzowego zamiast sumy tak jak miało to miejsce powyżej. Oznaczmy przez x wektor zmiennych, którego elementami będą składowe x 1,..., x n i podobnie wektor zmiennych s, którego elementami będą s 1,..., s n. Oznaczmy przez A macierz, której elementami będą a i,j. Używając notacji wektorowo-macierzowej możemy zapisać powyższy model jako: x = A s (1.4) Czasem potrzebujemy zapisu kolumnowego macierzy A. Rozkładając macierz na n kolumn model można także zapisać jako: n (5)x = a i s i (1.5) i=1 Taki model nazywamy metodą niezależnych składowych lub inaczej modelem ICA. Model ICA jest modelem generatywnym. Oznacza to, że model ten opisuje w jaki sposób zaobserwowane dane są generowane przez proces mieszania komponentów s i. Niezależne komponenty są zmiennymi nieobserwowalnymi co oznacza, że nie mogą zostać bezpośrednio zaobserwowane. Także zakłada się, że macierz

11 1.2. METODA NIEZALEŻNYCH SKŁADOWYCH 5 mieszająca powinna być nieznana. Wszystko co możemy zaobserwować to wektor x i to na jego podstawie należy estymować A oraz s. Punktem wyjścia dla ICA jest proste założenie, że wszystkie komponenty s i są statystycznie niezależne. Statystyczna niezależność zostanie opisana w dalszej części tego dokumentu. Ponadto musimy założyć, że niezależne komponenty nie mogą mieć rozkładu normalnego. Jednakże, w podstawowym modelu nie zakładamy takiej wiedzy o rozkładzie (jeżeli będziemy wiedzieć jaki rozkład mają komponenty to problem trywializuje się). Dla prostoty zakładamy też, że nieznana macierz mieszająca jest macierzą kwadratową. Wówczas po estymacji macierzy A, liczymy macierz do niej odwrotną W. Otrzymujemy wówczas niezależny komponent jako: s = W x (1.6) ICA jest bardzo blisko spokrewnione z metodą zwaną ślepą separacją sygnału (blind source separation lub inaczej blind signal separation - BSS). Słowo sygnał może oznaczać np. jakiś niezależny komponent jak mikrofon w problemie koktajl - party. Ślepa oznacza, że wiemy niewiele (jeśli w ogóle cokolwiek) o macierzy mieszającej i robimy niewiele założeń na temat sygnałów źródłowych. ICA jest jedną z metod (najprawdopodobniej najczęściej używaną) do przeprowadzania ślepej separacji źródła (sygnału) Dwuznaczność Metody Niezależnych Składowych W modelu ICA w równaniu (2) łatwo można zauważyć, że zachowana jest dwuznaczność: 1. Nie możemy ustalić wariancji niezależnych komponentów. Powód jest taki, że obie zmienne s i A są nieznane. Każdy skalar mnożący z jednego ze źródeł s i nie powinien być dopuszczany do dzielenia korespondującej kolumny a i macierzy A przez ten sam skalar. W konsekwencji, możemy lekko poprawić wielkość niezależnych komponentów. Jakoże są to zmienne losowe, najprostszym sposobem do zrobienia tego jest założenie, że każda zmienna ma jednostkową wariancję: E{s 2 i } = 1. Wówczas macierz A zostanie zaadoptowana do modelu ICA. Warto zauważyć, że pozostawia do dwuznaczność dla znaku: możemy przemnożyć niezależny komponent przez 1 bez wpływu na model. Ta dwuznaczność jest na szczęście nieistotna w większości przypadków. 2. Nie możemy ustalić porządku niezależnych komponentów. Powód jest taki, że ponownie zmienne s i A pozostają nieznane, możemy swobodnie zmienić porządek sum w równaniu (5) i wywołać każdy niezależny komponent w pierwszej kolejności. Formalnie macierz permutacji P i

12 6 ROZDZIAŁ 1. ICA - METODA NIEZALEŻNYCH SKŁADOWYCH do niej odwrotna mogą być wstawione do modelu dając: x = A P 1 P s (1.7) Elementy P s są oryginalnymi niezależnymi zmiennymi s j, tyle że w innej kolejności. Macierz A P 1 jest po prostu nową nieznaną macierzą mieszającą, którą należy rozwiązać używając algorytmów ICA Ilustracja ICA Aby zilustrować model ICA statystycznie wyobraźmy sobie dwa niezależne komponenty, które posiadają następujący rozkład: p(s i ) = gdy s i 3 0 w p. p. (1.8) Zakres wartości dla tego rozkładu został tak dobrany by wartość oczekiwana była równa zero, a wariancja jeden, tak by zostać w zgodzie z tym co zostało opisane wcześniej. Połączona gęstość s 1 i s 2 jest osadzona na kwadracie. To pociąga za sobą na mocy podstawowej definicji, że połączona gęstość dwóch niezależnych zmiennych jest produktem ich gęstości brzegowych: w tym momencie musimy po prostu obliczyć ten produkt. Wykres gęstości jest pokazany na rysunku poniżej. Teraz zmieszajmy te dwa niezależne komponenty. W tym celu użyjemy następującej macierzy mieszającej: ( ) 2 3 A 0 = (1.9) 2 1 To daje nam dwie zmieszane zmienne: x 1 i x 2. Łatwo jest policzyć, że zmieszane dane mają rozkład osadzony na równoległoboku. Zauważmy, że zmienne losowe x 1 i x 2 nie są już niezależne. Prostym sposobem do udowodnienia tego faktu jest wyobrażenie sobie czy możliwa jest predykcja wartości jednej z nich, np. x 2, na podstawie wartości drugiej z nich. Oczywiście jeśli x 1 osiągnie minimum lub maksimum wówczas całkowicie określa ona wartość x 2 Dlatego nie są one już niezależne. Dla zmiennych s 1 i s 2 sytuacja jest kompletnie inna. Z wykresu 1.1 można wywnioskować to, że znajomość wartości s 1 nie pomaga w żaden sposób w określeniu wartości s 2. Problem estymacji danych w modelu ICA polega teraz na estymacji macierzy mieszającej A 0 wykorzystując jedynie informacje zawarte w zmiennych x 1 i x 2. Właściwie, jak widać na wykresie 1.2 intuicyjnie droga do estymacji A wygląda następująco: krawędzie równoległoboku leżą w kierunku kolumn macierzy A. Oznacza to, że możemy w zasadzie estymować model ICA przez po pierwsze estymację łącznej gęstości x 1 i x 2 i po drugie w znalezieniu krawędzi. Stąd problem zdaje się mieć rozwiązanie.

13 1.3. NIEZALEŻNOŚĆ 7 Rysunek 1.1: W rzeczywistości jednak okazuje się, że jest to bardzo słaba metoda ponieważ działa ona tylko dla zmiennych, których rozkład osadzony jest dokładnie w kwadracie. Co więcej obliczenia byłyby bardzo skomplikowane. Tego czego potrzebujemy to metoda, która działa z każdym rozkładem niezależnych komponentów i co więcej działa szybko i niezawodnie. Teraz rozpatrzmy dokładną definicję niezależności zanim rozwiniemy metody estymacji modelu ICA. 1.3 Niezależność Definicja i fundamentalne zasady By zdefiniować pojęcie niezależności rozpatrzmy dwie zmienne losowe y 1 i y 2. Po pierwsze zmienne y 1 i y 2 są niezależne jeśli informacja o zmiennej y 1 nie daje nam żadnych informacji na temat zmiennej y 2 i vice versa. Technicznie niezależno ć może być zdefiniowana przez gęstości prawdopodobieństwa. Oznaczmy przez p(y 1, t 2 ) łączną gęstość prawdopodobieństwa funkcji (pdf - probability density function) zależnej od y 1 i y 2. Dalej oznaczmy przez p 1 (y 1 ) brze-

14 8 ROZDZIAŁ 1. ICA - METODA NIEZALEŻNYCH SKŁADOWYCH Rysunek 1.2: gową pdf dla y 1, np. pdf zmiennej y 1 gdy jest rozpatrywana w pojedynkę: p 1 (y 1 ) = p(y 1, y 2 )dy 2 (1.10) co podobnie się przedstawia dla zmiennej y 2.Wówczas możemy zdefiniować, że zmienne y 1 i y 2 są niezależne wtedy i tylko wtedy gdy: p(y 1, y 2 ) = p 1 (y 1 ) p 2 (y 2 ) (1.11) Definicję tę naturalnie można rozszerzyć do do n różnych zmiennych. Definicja może zostać wykorzystana do wyprowadzenia najważniejszej własności niezależnych zmiennych losowych. Biorąc dwie funkcje h 1 i h 2 zawsze otrzymamy: (11)E{h 1 (y 1 )h 2 (y 2 )} = E{h 1 (y 1 )}E{h 2 (y 2 )} (1.12) Nieskorelowane zmienne są jedynie częściowo niezależne Słabszą formą niezależności jest niekorelacyjność. Dwie zmienne losowe y 1 i y 2 są nieskorelowane jeśli ich kowariancja jest równa zero: E{y 1 y 2 } E{y 1 }E{y 2 } = 0 (1.13) Jeśli zmienne są niezależne to są nieskorelowane, co otrzymujemy bezpośrednio z (11) podstawiając za h 1 (y 1 ) = y 1 i h 2 (y 2 ) = y 2. Z drugiej strony niekorelowalność nie implikuje niezależności.

15 1.4. ZASADY ESTYMACJI ICA 9 Ponieważ niezależność implikuje niekorelowalność wiele metod ICA ogranicza procedurę estymacji co znacznie poprawia koszt estymacji niezależnych komponentów Dlaczego rozkład normalny nie jest dopuszczalny? Podstawowe założenie ICA jest takie, że niezależne komponenty nie mogą być gaussowskie (o rozkładzie innym niż normalny). Aby zobaczyć dlaczego zmienne gaussowskie uniemożliwiają ICA załóżmy, że macierz mieszająca jest ortogonalna i s i jest gaussowskie. Wówczas x 1 i x 2 są gaussowskie, nieskorelowane i o jednostkowej wariancji. Ich łączna gęstość jest następująca: p(x 1, x 2 ) = 1 2π exp( x2 1 + x2 2 ) (1.14) 2 Ten rozkład jest zobrazowany na wykresie (7). Wykres pokazuje, że ten rozkład jest symetryczny. Dlatego też nie zawiera on żadnych informacji na temat kierunków kolumn macierzy mieszającej A. Z tego powodu A nie może być estymowana. 1.4 Zasady estymacji ICA Nongaussian jest niezależny Intuicyjnie mówiąc kluczem do estymowania modelu ICA jest non-gaussowalność. Właściwie bez non-gaussowalności estymacja nie jest w ogóle możliwa. W większości klasycznych teorii statystycznych zmienne losowe powinny mieć rozkład normalny co wyklucza ich związek z ICA. Centralne twierdzenie graniczne mówi, że rozkład sum zmiennych losowych zbiega według rozkładu do standardowego rozkładu normalnego gdy ilość tych zmiennych rośnie do nieskończoności. Tak więc suma dwóch niezależnych zmiennych losowych zazwyczaj ma rozkład. który jest bliższy do normalnego niż jakiegokolwiek z tych dwóch rozkładów oryginalnych zmiennych losowych. Załóżmy, że wektor x jest rozłożony według modelu ICA przedstawionego w równaniu (4), np jest to zbiór niezależnych komponentów. Dla prostoty załóżmy, że wszystkie niezależne komponenty mają ten sam rozkład. Do estymacji jednego z niezależnych komponentów rozpatrzmy liniową kombinację. Oznaczmy przez y = w T x = i w ix i, gdzie w jest wektorem, który musimy wyznaczyć. Jeśli w będzie jednym z wierszy macierzy odwrotnej do A, to ta liniowa kombinacja będzie równa jednemu z niezależnych komponentów. Nasuwa się teraz pytanie, jak wykorzystać centralne twierdzenie graniczne do obliczenia w by był on równy jednemu z wierszy odwróconej macierzy A? W praktyce nie możemy wyznaczyć w dokładnie ponieważ nie mamy żadnej wiedzy o macierzy A. Możemy natomiast znaleźć estymator, który da dobrą aproksymację.

16 10 ROZDZIAŁ 1. ICA - METODA NIEZALEŻNYCH SKŁADOWYCH Aby zobaczyć jak to prowadzi do podstawowej estymacji ICA zmieńmy zmienne definiując z = A T w. Wówczas mamy y = w T x = w T As = z T s. y jest więc liniową kombinacją s i z wagami otrzymanymi z z i. Ponieważ suma nawet dwóch niezależnych zmiennych losowych jest bardziej gaussowska niż oryginalne zmienne, to z T s jest bardziej gaussowe niż każdy z s i. W takiej sytuacji oczywiście tylko jedna jeden element z i należący do z, który jest niezerowy. Dlatego możemy wziąć jako w wektor, który maksymalizuje non-gaussowość w T x. Taki wektor powinien koniecznie być zgodny z z, który ma tylko jeden niezerowy element. To oznacza, że w T x = z T s równa się jednemu z niezależnych komponentów. Maksymalizacja non-gaussowości w T x daje nam jeden z niezależnych komponentów. Faktycznie optymalizacja całościowa non-gaussowości n-wymiarowego wektora w posiada 2n lokalnych maksimów, po dwa dla każdego niezależnego komponentu, połączonych z s i i s i (??przypomnijmy, że niezależne komponenty mogą być estymowane do multiplikatywnego znaku??). Aby znaleźć kilka niezależnych komponentów musimy znaleźć te wszystkie lokalne maksima. Nie jest to trudne ponieważ różne niezależne komponenty są nieskorelowane. Możemy zawsze ograniczyć poszukiwania do obszaru, w którym estymatory są nieskorelowane z poprzednimi. To odpowiada ortogonalizacji w odpowiednio przekształconej przestrzeni. Takie podejście jest raczej heurystyczne, ale za chwilę okaże się, że ma ono odpowiednie uzasadnienie Miary non-gaussowe Aby używać non-gaussowości w estymacji ICA należy zdefiniować kwantytatywną miarę dla non-gaussowej zmiennej losowe, np. y. Dla prostoty załóżmy, że y jest wyśrodkowane. tzn. ma średnią zerową i jej wariancja jest równa jeden. Kurtoza Klasyczną miarą nongaussianów jest kurtoza, która jest zdefiniowana następująco: kurt(y) = E{y 4 } 3(E{y 2 }) 2 (1.15) Wcześniej założyliśmy, że y ma jednostkową wariancję co powoduje, że równanie upraszcza się do: kurt(y) = E{y 4 } 3 (1.16) To pokazuje, że kurtoza jest po prostu znormalizowanym czwartym momentem E{y 4 }. Jeśli y ma rozkład normalny to to czwarty jej moment wynosi 3(E{y 2 }) 2. Stąd kurtoza dla gaussiańskich zmiennych losowych. Dla większości nongaussiańskich zmiennych losowych kurtoza jest niezerowa.

17 1.4. ZASADY ESTYMACJI ICA 11 Rozkłady prawdopodobieństwa można podzielić ze względu na wartość kurtozy na rozkłady: - mezokurtyczne - wartość kurtozy wynosi 0, spłaszczenie rozkładu jest podobne do spłaszczenia rozkładu normalnego (dla którego kurtoza wynosi dokładnie 0) - leptokurtyczne - kurtoza jest dodatnia, wartości cechy są bardziej skoncentrowane niż przy rozkładzie normalnym - platykurtyczne - kurtoza jest ujemna, wartości cechy mniej skoncentrowane niż przy rozkładzie normalnym Typowym rozkładem leptokurtycznym jest rozkład Laplace a, którego gęstość jest opisana wzorem: p(y) = 1 2 exp 2 y (1.17) Rozkład ten jest zilustrowany na wykresie poniżej.natomiast typowym przykładem rozkładu platykurtycznego jest rozkład jednostajny. Kurtoza, a raczej jej wartość absolutna może być szeroko wykorzystywana jako miara dla nongaussiańskich zmiennych losowych w ICA. Głównym powodem jest jej prostota obliczeniowa i teoretyczna. Obliczeniowo kurtoza może być estymowana po prostu przez wykorzystanie czwartego momentu próby. Teoretyczna analiza jest prosta z powodu liniowej własności: jeśli x 1 i x 2 są niezależnymi zmiennymi losowymi to: kurt(x 1 + x 2 ) = kurt(x 1 ) + kurt(x 2 ) (1.18) oraz kurt(αx 1 ) = α 4 kurt(x 1 ) (1.19) gdzie α jest skalarem. Te własności łatwo można udowodnić korzystając z definicji. Aby zilustrować jak wygląda optymalizacja dla kurtozy i w jaki sposób niezależne komponenty mogą zostać znalezione przez maksymalizację lub minimalizację kurtozy rozpatrzmy dwuwymiarowy model: x = As (1.20) Załóżmy, że niezależne komponenty s 1 i s 2 mają kurtozy kurt(s 1 ) i kurt(s 2 ) różne od zera. Przypomnijmy, że założyliśmy, że mają one jednostkowe wariancje. Szukamy jednego z niezależnych komponentów y = w T x. Zróbmy jeszcze raz transformację z = A T w. Wówczas otrzymujemy y = w T x = w T As = z T s = z 1 s 1 + z 2 s 2 (1.21)

18 12 ROZDZIAŁ 1. ICA - METODA NIEZALEŻNYCH SKŁADOWYCH Teraz bazując na addytywności kurtozy otrzymujemy: kurt(y) = kurt(z 1 s 1 ) + kurt(z 2 s 2 ) = z 4 1kurt(s 1 ) + z 4 2kurt(s 2 ) (1.22) Założyliśmy, że wariancja y jest równa jeden co daje nam, że: E{y 2 } = z z 2 2 = 1 (1.23) Geometrycznie oznacza to, że wektor z jest ograniczony przez jednostkowe koło na dwuwymiarowej płaszczyźnie. Napotykamy w tym momencie na problem optymalizacyjny: jakie są maksima funkcji kurt(y) = z 4 1(kurt(s 1 ) + z 4 2(kurt(s 2 ) (1.24) na kole jednostkowym? Dla prostoty można przyjąć, że kurtozy mają ten sam znak stąd można opuścić wartości bezwzględne. Nie jest trudno pokazać, że maksima są w punktach gdzie dokładnie jeden z elementów wektora z jest równy zero a pozostałe są niezerowe. Ponieważ ograniczeniem jest koło jednostkowe to niezerowe elementy muszą być równe 1 lub -1. Tylko te punkty są dokładnie tymi, dla których y jest równy jednemu z niezależnych komponentów ±s i co rozwiązuje problem. W praktyce powinniśmy rozpocząć od pewnego wektora wag w obliczając kierunek, w którym kurtozy y = w T x rosną najszybciej (jeśli kurtozy są dodatnie) lub maleją najszybciej (jeśli kurtozy są ujemne) bazując na danych próbkach x(1),..., x(t ) wektora mieszającego x i obliczając za pomocą metody gradientu nowy wektor w. Jednakże kurtozy posiadają pewne wady. Jedną z nich jest podatność na elementy odstające. Negentropia Drugą bardzo ważną miarą dla zmiennych losowych o rozkładzie innym niż normalny jest negentropia. Stanowi ona różnicę pomiędzy maksymalną możliwą wartością entropii odpowiadającą całkowitej dezorganizacji systemu, a jej aktualną wartością. Przy dezorganizacji systemu negentropia maleje, podczas gdy entropia wzrasta, i - na odwrót - wzrostowi organizacji odpowiada zawsze wzrost negentropii. Entropia jest podstawowym pojęciem teorii informacji. Entropia zmiennej losowej może być interpretowana jako średnia ilość informacji, przypadająca na znak symbolizujący zajście zdarzenia z pewnego zbioru. Entropia H jest zdefiniowana dla dyskretnych zmiennych losowych jako: H(Y ) = i P (Y = a i ) log P (Y = a i ) (1.25)

19 1.4. ZASADY ESTYMACJI ICA 13 gdzie a i jest możliwą wartością dla Y. Ta bardzo dobrze znana definicja może być uogólniona dla zmiennych losowych ciągłych co często się nazywa entropią dyferencjalną. Entropia dyferencjalna H wektora losowego y o gęstości f(y) jest zdefiniowana jako: H(y) = f(y) log f(y)dy (1.26) Fundamentalnym wnioskiem teorii informacji jest to, że zmienne o rozkładzie normalnym mają największą entropię ze wszystkich zmiennych losowych o takich samych wariancjach. Oznacza to, że entropia może być wykorzystana jako miara dla zmiennych o rozkładzie innym niż normalny. W zasadzie oznacza to, że rozkład Gausa jest najbardziej losowy lub też najmniej strukturalny ze wszystkich rozkładów. Entropia jest mała dla rozkładów, które głównie koncentrują się na konkretnych wartościach. W teorii informacji i statystyce, negentropia jest miarą odległości rozkładu zmiennej np. wartości cechy lub sygnału od rozkładu normalnego (Gausa), jedną z miar koncentracji rozkładu. [7][8][9] Podstawą porównania jest rozkład normalny, ponieważ zmienna podlegająca temu rozkładowi charakteryzuje się największą entropią. Negentropia jest zawsze nieujemna, niezmiennicza względem dowolnego liniowego przekształcenia współrzędnych i równa zeru tylko gdy zmienna ma rozkład normalny. Negentropia jest zdefiniowana jako: J(y) = H(y gauss ) H(y) (1.27) gdzie H(y gauss ) jest zmienną losową o rozkładzie normalnym posiadającym taką samą macierz kowariancji jak y. W związku z wyżej wymienionymi własnościami, negentropia jest zawsze nieujemna i jest równa zero wtedy i tylko wtedy, gdy y ma rozkład normalny. Negentropia ma jedną dodatkową własność, którą jest niezmienniczość przekształcenia liniowego. Zaletą używania negentropii lub równoważnie dyferencyjnej entropii jako miary dla zmiennej losowej o rozkładzie innym niż rozkład Gausa jest to, że jest ona dobrze uzasadniona przez teorię statystyki. Faktycznie negentropia jest w pewnym sensie optymalnym estymatorem dla takich zmiennych losowych tak długo jak będą spełniane założenia statystyczne. Problemem w używaniu negentropii jest jest trudność obliczeniowa. Estymowanie negentropii za pomocą definicji wymaga szacowania pdf. Aproksymacja negentropii Estymowanie negentropii jest trudne, dlatego funkcję można rozważać głównie w teoretycznym aspekcie. W praktyce można wykorzystać pewne aproksymacje. Klasyczna metoda aproksymacji negentropii wykorzystuje momenty wysokiego rzędu, np: J(y) 1 12 E{y3 } kurt(y)2 (1.28)

20 14 ROZDZIAŁ 1. ICA - METODA NIEZALEŻNYCH SKŁADOWYCH Dla zmiennej losowej y zakłada się, że ma ona zerową średnią i jednostkową wariancję. Jednakże prawidłowość takiej aproksymacji może być ograniczona. By uniknąć problemów napotykanych podczas poprzedzających aproksymacji, nowe są rozwijane. Aproksymacje opisane tutaj będą się opierały na zasadzie maksymalnej entropii. Ogólnie rozważmy następującą aproksymację: p J(y) k i [E{G i (y)} E{G i (v)}] 2 (1.29) i=1 gdzie k i jest pewnym dodatnim skalarem, v jest zmienną losową o rozkładzie normalnym o zerowej wartości oczekiwanej i jednostkowej wariancji. Zmienna y ma zerową wartość oczekiwaną i jednostkową wariancję, a funkcje G i są funkcjami nie kwadratowymi. Zauważmy, że nawet jeśli powyższa aproksymacja nie jest dokładna to wciąż może zostać wykorzystana do skonstruowania miary dla zmiennej o rozkładzie innym niż normalny, która będzie zawsze nieujemna i równa zero gdy y ma rozkład Gausa. W sytuacji gdybyśmy użyli jedynie nie kwadratowej funkcji G, aproksymacja przyjmuje postać: J(y) [E{G(y)} E{G(v)}] 2 (1.30) dla praktycznie każdej nie kwadratowej funkcji G. To jest oczywiście generalizacja opartej na momentach aproksymacji (23) jeśli y jest symetryczne. W rzeczy samej biorąc G(y) = y 4 otrzymujemy niemalże dokładnie równanie (23). Ważne jest mądre wybranie G by uzyskać aproksymację negentropii, która będzie lepsza od tej z równania (23). W szczególności wybranie G. które nie rośnie tak szybko może spowodować uzyskanie bardziej solidnego estymatora. Poniższe przykłady G mogą być bardzo użyteczne: G 1 (u) = 1 a 1 log cosh a i u (1.31) G 2 (u) = exp( u2 2 ) (1.32) gdzie 1 a 1 2 jest pewną ustaloną stałą. W ten sposób uzyskaliśmy aproksymację negentropii, która daje dobry kompromis pomiędzy własnościami jakie dają dwie miary dla zmiennych losowych o rozkładach innych niż normalny, czyli kurtozą i negentropią. Są one koncepcyjnie proste oraz szybkie w obliczeniach. Zatem należy użyć te dwie różne funkcje w metodzie ICA Minimalizacja informacji wzajemnej Kolejnym problemem estymacji ICA odziedziczonym po teorii informacji jest minimalizacja informacji wzajemnej.

21 1.4. ZASADY ESTYMACJI ICA 15 Informacja wzajemna Używając pojęcia entropii dyferencjalnej można zdefiniować informację wzajemną I pomiędzy m zmiennymi losowymi y i, i = 1,..., m jako: m I(y 1, y 2,..., y m ) = H(y i ) H(y) (1.33) i=1 Informacja wzajemna jest miarą zależności pomiędzy zmiennymi losowymi. W rzeczywistości jest to równoważne z dobrze znaną odległością Kullbacka-Leiblera pomiędzy łączną gęstością f(y), a produktem ich gęstości brzegowych. Jest ona zawsze nieujemna i równa zero jeśli zmienne losowe są statystycznie niezależne. Tak więc informacja wzajemna bierze pod uwagę całą strukturę zależności między zmiennymi, a nie tylko kowariancję tak jak to robi PCA i metody z niż związane. Informacja wzajemna może być interpretowana używając pojęcia entropii jako długość kodu (code length). Termy H(y i ) zwracają długości kodów y i gdy są one zapisane oddzielnie, oraz H(y) zwraca długość kodu jeśli y zapisany jako wektor losowy. Informacja wzajemna zatem pokazuje jak zmniejszanie się długości kodu jest zależne od zapisywania całych wektorów zamiast oddzielnych komponentów. Generalnie lepiej jest zapisywać całe wektory. Jednakże jeśli y i są niezależne to nie dają one żadnych informacji o sobie nawzajem i każda może z nich może zostać zapisana oddzielnie bez zwiększania długości kodu. Ważna własności wzajemnej informacji jest to, że dla odwracalnej transformacji liniowej y = W x: I(y 1, y 2,..., y n ) = i H(y i ) H(x) log det W (1.34) Teraz wyobraźmy sobie co się stanie gdy założymy, że y i są nieskorelowane i o jednostkowej wariancji. Oznacza to, że E{yy T } = W E{xx T }W T = I, co implikuje: det I = 1 = (det W E{xx T }W T ) = (det W )(det E{xx T })(det W T ) (1.35) co implikuje, że det W musi być stałą. Co więcej dla y i, które ma jednostkową wariancję, entropia i negentropia różni się jedynie o stałą i znak. Stąd otrzymujemy: (30)I(y 1, y 2,..., y n ) = C J(y i ) (1.36) i gdzie C jest stałą, która nie zależy od W. To pokazuje fundamentalną relację między negentropią a wzajemną informacją. Definiowanie ICA za pomocą informacji wzajemnej Skoro informacja wzajemna w teorii informacji jest miarą niezależności zmiennych losowych to można ją wykorzystać jako kryterium do znajdowania transformacji

22 16 ROZDZIAŁ 1. ICA - METODA NIEZALEŻNYCH SKŁADOWYCH ICA. W tym modelu, który jest alternatywnym modelem estymacji, definiujemy ICA jako przez wektor losowy x jako odwracalne przekształcenie jak w równaniu s = W x (1.37) gdzie macierz W jest determinująca. Stąd informacja wzajemna transformowanych komponentów s i jest zminimalizowana. Teraz jest jasne z równania (30), że znalezienie odwracalnego przekształcenia W, które minimalizuje informacji wzajemnej jest równoważne ze znalezieniem kierunków, w którą stronę negentropia jest zmaksymalizowana. Bardziej precyzyjnie jest to równoważne ze znalezieniem 1-D podprzestrzeni takich, dla których rzuty na te podprzestrzenie ma maksymalne negentropie. ściślej mówiąc równanie (30) pokazuje, że estymacja ICA przez minimalizację informacji wzajemnej jest równoważne ze znalezieniem maksymalnych sum estymatorów zmiennych losowych o rozkładzie innym niż normalny (nongaussianów), jeśli te estymatory są nieskorelowane. Ograniczenie niekorelowalności nie jest faktycznie potrzebny, ale znacznie upraszcza obliczenia. W ten sposób formułowanie ICA za pomocą minimalizacji wzajemnej informacji daje kolejne rygorystyczne uzasadnienie heurystycznie wprowadzonej idei znajdowania maksymalnych kierunków nongaussianów Maksymalna estymacja prawdopodobieństwa Prawdopodobieństwo Bardzo popularną metodą estymowania modelu ICA jest znajdowanie maksymalnego estymatora prawdopodobieństwa. W dalszej kolejności omówimy to podejście i pokażemy, że jest ono niemal równoważne z minimalizacją informacji wzajemnej. Możliwe jest opisanie bezpośrednio prawdopodobieństwa w bezszumowym modelu ICA i następnie estymować model za pomocą metody maksymalnego prawdopodobieństwa. Oznaczając przez W = (w 1,..., w n ) T macierz A 1, prawdopodobieństwo przyjmuje postać: T n L = log f i (wi T x(t)) + T log det W (1.38) t=1 i=1 gdzie f i są funkcjami gęstości dla s i (zakładamy, że je znamy), x(t), t = 1,..., T realizują x. Element log det W pochodzi z klasycznej metody transformacji zmiennych losowych i ich gęstości. W ogólności dla każdego wektora losowego x o gęstości p x i dla każdej macierzy W, gęstość y = WX jest równa p x (W x) det W. Zasada infomax Zasada ta bazuje na na maksymowaniu entropii wyjściowej sieci neuronowej z nieliniowymi wyjściami. Zakładając, że x jest wejściem sieci neuronowej, któ-

23 1.4. ZASADY ESTYMACJI ICA 17 rej wyjścia pochodzą z przekształcenia φ i (w T i x), gdzie φ i jest pewną nieliniową funkcją skalarną, a w i jest wektorem wag neuronów. Chcemy teraz zmaksymować entropię dla wyjścia: L 2 = H(φ 1 (w T 1 x),..., φ n (w T n x)) (1.39) Jeśli φ i zostały dobrze wybrane, to taka konstrukcja również pozwala na estymację modelu ICA. W rzeczy samej, wielu autorów (np. Cardoso, 1997; Pearlmutter and Parra, 1997) dowiodło zaskakującej tezy, że reguła maksymalizacji entropii sieci (lub inaczej infomax) jest ekwiwalentna do maksymalnej estymacji prawdopodobieństwa. Ta ekwiwalencja wymaga by nieliniowe φ i użyte w sieci neuronowej były tak wybrane by sumaryczne funkcje rozkładu miały związek z gęstościami f i (np.: φ i (.) = f i(.)) Związek z wzajemną informacją Aby zobaczyć różnicę pomiędzy prawdopodobieństwem a informacją wzajemną rozważmy równanie log-likelihood (po polsku??) 1 n T E{L} = E{log f i (wi T x)} + log det W (1.40) i=1 Właściwie jeśli f i będą równe obecnym rozkładom wi T x to pierwsza część sumy będzie równa i H(wT i x). W ten sposób prawdopodobieństwo powinno być równe (modulo dodatnia stała) do ujemnej wzajemnej informacji z równania (28). W praktyce ten związek jest jeszcze silniejszy. Jest tak ponieważ w praktyce nie znamy rozkładów niezależnych składowych. Rozsądnym podejściem byłaby estymacja gęstości wi T x jako część estymacji modelu ML i użycie jej jako aproksymacji gęstości s i. W tym przypadku prawdopodobieństwo i wzajemna informacja są ekwiwalentne. Niemniej istnieje niewielka różnica, która może mieć duże znaczenie w praktyce. Problem z maksymalną estymacją prawdopodobieństwa jest taki, że gęstości f i muszą zostać poprawnie estymowane, ale niekoniecznie z wielką precyzją. W wielu przypadkach posiadamy dostateczną wiedzę na temat niezależnych składowych i nie musimy estymować ich charakterystyki z danych. Zawsze jeśli informacje na temat charakterystyki niezależnych składowych są nieprawidłowe to estymacja ML daje złe rezultaty. Zatem wcześniej powinny zostać podjęte pewne czynności. Używając rozsądnych non-gaussiańskich miar taki problem nie występuje ICA i Projection Pursuit Ważne odnotowania jest to, że nasze podejście do ICA tworzy wyraźne połączenie między ICA a Projection Pursuit (ozn.: PP). PP jest techniką stworzoną w statystyce do znalezienia interesujących rzutowań wielowymiarowych danych.

24 18 ROZDZIAŁ 1. ICA - METODA NIEZALEŻNYCH SKŁADOWYCH Rysunek 1.3: Ilustracja Takie rzutowania mogą być wykorzystane do optymalnej wizualizacji danych i dla takich celów jak estymacja gęstości i regresja. W podstawowej (1-D) PP postaramy się znaleźć takie kierunki, dla których rzuty danych na nie mają interesujące rozkłady. Został udowodnione przez Hubera (Huber, 1985) oraz przez Jones a i Sibsona (Jones and Sibons, 1987), że rozkład Gausa jest najmniej interesującym oraz że najbardziej interesującymi kierunkami są te, które pokazują najmniejszy rozkład Gausa. To jest dokładnie to czego potrzebujemy do estymacji modelu ICA. Przydatność znalezienia takiego rzutu jest pokazana na rysunku 1.3, gdzie rzut na w kierunku PP (który jest horyzontalny) jasno pokazuje grupową strukturę danych. Z drugiej strony rzut na pierwszy ważny komponent nie pokazuje tej struktury. W ten sposób ICA może być rozważana w zależności od wykonywanego rzutu. Wszystkie miary non-gaussiańskie opisane tutaj i wszystkie algorytmy związane z ICA zaprezentowane tutaj mogą również zostać przypisane do PP zbioru i algorytmów. W szczególności PP pozwala nam poradzić sobie z sytuacją, gdzie istnieje mniej niezależnych komponentów s i niż oryginalnych zmiennych x i. Przypuszczając, że te wymiary przestrzeni, które nie są obejmowane przez niezależne komponenty są wypełnione szumem Gausa widzimy, że obliczając non-gaussowe kierunki PP estymujemy tak naprawdę niezależne komponenty. Kiedy wszystkie non-gaussowe kierunki zostaną znalezione, wszystkie niezależne komponenty zostały wyestymowane. Taka procedura może być zinterpretowana jako hybryda

25 1.5. PREPROCESSING ICA 19 projection pursuit i ICA. 1.5 Preprocessing ICA W poprzedniej sekcji rozważaliśmy statystyczne zasady kryjące się pod metodami ICA. Praktyczne algorytmy bazujące na tych zasadach zostaną omówione w dalszej części. Jednakże zanim zaczniemy stosować algorytmy ICA na danych zazwyczaj przeprowadza się preprocessing. W tej sekcji przedstawimy pewne techniki preprocessingu, który sprawia, że problem estymacji ICA staje się łatwiejszy i lepiej sformułowana Centrowanie Najbardziej podstawową techniką jest centrowanie x (np.: odejmowanie wartości oczekiwanej m = E{x} tak by x stało się zmienną losową o zerowej wartości oczekiwanej). Powoduje to, że s ma wartość oczekiwaną równą zero także po odjęciu oczekiwań z obu stron równania 1.4. Tę technikę wykorzystuje się wyłącznie do uproszczenia algorytmów ICA. Nie oznacza to, że wartość oczekiwana może być estymowana. Po estymacji macierzy mieszającej A z wycentrowanymi danymi możemy dokończyć estymację przez dodanie wektora wartości oczekiwanych s z powrotem do wycentrowanych estymatorów s. Wektor wartości oczekiwanych jest zadany przez A 1 m, gdzie m jest wartością oczekiwaną, która została zmieniona podczas preprocessingu Wybielanie Kolejną przydatną strategią preprocessingu jest wybielenie obserwowanych zmiennych. Działa ona w ten sposób, że przed zastosowaniem algorytmu ICA (i po centrowaniu) przekształca się zaobserwowany wektor x liniowo tak, że otrzymujemy nowy wektor Żx, który jest biały (np.: jego komponenty są nieskorelowane i ich wariancje są równe jeden). Innymi słowy, macierz kowariancji Żx jest równa macierzy identycznościowej: E{ŻxŻx T } = I (1.41) Wybielanie jest zawsze możliwe. Jedną z popularnych metod wybielania jest dekompozycja za pomocą wartości własnej (Eigen-Value Decomposition, EVD) macierzy kowariancji E{xx T } = EDE T, gdzie E jest macierzą ortogonalną wektorach własnych z E{xx T } i D jest macierzą diagonalną z jej wartościami własnymi, D = diag(d 1,..., d n ). Zauważmy, że E{xx T } może być estymowane w standardowy sposób z dostępnych próbek x(1),..., x(n). Wybielanie może zostać przeprowadzone teraz przez: Żx = ED 1 2 E T x (1.42)

26 20 ROZDZIAŁ 1. ICA - METODA NIEZALEŻNYCH SKŁADOWYCH gdzie macierz D 1 2 = diag(d 1 2 1,..., d 1 2 n ). Łatwo udowodnić teraz, że E{ŻxŻx T } = I. Wybielanie przekształca macierz mieszającą tworząc nową, Ż A. Mamy z równania 1.4 i 1.42: Żx = ED 1 2 E T As = Ż As (1.43) Narzędzie wybielania sprawia, że nowa macierz mieszająca Ż A jest ortogonalna. Można to udowodnić z: E{ŻxŻx T } = Ż AE{ss T }A T = Ż A Ż A T = I (1.44) W tym miejscu widzimy, że technika wybielania redukuje liczbę parametrów do estymacji. Zamiast mieć n 2 parametrów do estymowania, które są elementami oryginalnej macierzy A, musimy estymować jedynie nową macierz ortogonalną A. Ż Macierz ortogonalna zawiera n(n 1) 2 stopni swobody. Dla przykładu w dwóch wymiarach ortogonalna transformacja jest determinowana przez pojedynczy parametr. W większych wymiarach macierz ortogonalna zawiera jedynie około połowę parametrów macierzy wyjściowej. W ten sposób możemy powiedzieć, że wybielanie rozwiązuje połowę problemów związanych z estymowaniem ICA. Ponieważ wybielanie jest stosunkowo łatwą metodą to lepiej jest zredukować złożoność problemu na tym poziomie niż wykorzystywać do tego algorytmy ICA. Także bardzo przydatne może okazać się zredukowanie wymiaru danych w tym samym czasie gdy przeprowadzamy wybielanie. Zatem spójrzmy na wartości własne d j z E{xx T } i odrzućmy te, które są za małe jak to się często robi w statystycznej technice analizy głównych składowych (PCA). Ta metoda często powoduje redukcję szumów. Co więcej, redukcja wymiaru zapobiega przeuczeniu, co jest często spotykanym problemem ICA. Graficzna ilustracja tego efektu jest widoczna na rysunku 1.4, na którym dane z rysunku 1.2 zostały wybielone. Kwadrat definiujący rozkład jest teraz obróconą wersją oryginalnego rysunku 1.1. Wszystko to co pozostało jest estymacją pojedynczego kąta, który nadał rotacji. W pozostałej części tego rozdziału zakładamy, że dane zostały wycentrowane i wybielone. Dla prostoty notacji zakładamy, że dane po precossingu są oznaczone jako x, a przekształcona macierz mieszająca jest oznaczona jako A Dalszy preprocessing Sukces modelu ICA bazującego na zadanym zbiorze danych może zależeć od przeprowadzenia pewnych kroków preprocessingu zależnego od aplikacji. Na przykład, jeśli dane zawierają sygnały czasowe to pewne filtry środkowoprzepustowe mogą zostać zastosowane. Zauważmy, że jeśli filtrujemy liniowo obserwowane sygnały x i (t) by uzyskać nowe sygnały (na przykład x i (t)) to model ICA wciąż operuje na x i (t) z tą samą macierzą mieszającą.

27 1.6. ALGORYTM FASTICA 21 Rysunek 1.4: Można to zobaczyć w następujący sposób. Oznaczmy przez X macierz zawierającą obserwacje x(1),..., x(t ) jako jej kolumny. Podobnie oznaczmy S. Wówczas model ICA jest wyrażony jako: X = AS (1.45) Teraz filtr czasowy stosujemy mnożąc X z prawej strony przez macierz, na przykład M. Daje nam to X = XM = ASM = AS (1.46) co pokazuje, że model ICA wciąż pozostaje poprawny. 1.6 Algorytm FastICA W poprzednich sekcjach opisaliśmy różne miary non-gaussowe (np. obiektowe funkcje estymacji ICA). W praktyce potrzebujemy jeszcze algorytmu do maksymalizacji kontrastu funkcji (np. 1.30). W tej sekcji przedstawimy bardzo skuteczną metodę maksymalizacji proporcjonalną do ryzyka. Zakładamy, że na danych został wykonany preprocessing tak jak zostało to opisane wcześniej.

28 22 ROZDZIAŁ 1. ICA - METODA NIEZALEŻNYCH SKŁADOWYCH FastICA dla jednej jednostki Na początku przedstawimy wersję jedno-jednostkową algorytmu. Przez jednostkę rozumiemy jednostką obliczeniową, ewentualnie sztuczny neuron posiadający wektor wag w taki, że jest w stanie się zmodyfikować po procesie uczenia. Metoda uczenia FastICA znajduje kierunki (np.: wektor jednostkowy w, dla którego rzut w T x maksymalizuje non-gaussowość). Non-gaussowość jest w tej sytuacji mierzona za pomocą aproksymacji negentropii J(w T x) danej w równaniu Przypomnijmy, że wariancja w T x musi być równa jeden (dla wybielonych danych jest do równoważne z tym, że norma w jest równa jeden). FastICA bazuje na schemacie iteracji punktu stałego w celu znalezienia maksimum non-gaussowości w T x z miarą Może ona także zostać wyprowadzona z aproksymacji iteracji Newtona. Oznaczając przez g pochodną funkcji nie kwadratowej G użytej w 1.30; na przykład pochodnymi funkcji w 1.31 są: g 1 (u) = tgh(a 1 u) g 2 (u) = u exp( u2 2 ) (1.47) gdzie 1 a 1 2 jest pewną ustaloną stałą, często przyjmuje się, że a 1 = 1. Podstawową formą algorytmu FastICA jest: 1. Wybierz wektor wag w 2. w + = E{xg(w T x)} E{g (w T x)}w 3. w = w + / w + 4. Jeśli się nie zbiegają wróć do 2. Zbieżność oznacza tutaj ten sam kierunek wartości wektorów w i w +, np.: ich iloczyn skalarny jest (niemal) równy jeden. Nie jest konieczne by wektory zbiegały do pojedynczego punktu dopóki w i -w definiują ten sam kierunek. Jest tak dlatego, że niezależne komponenty mogą być definiowane z dokładnością co do znaku. Wyprowadzenie FastICA przebiega następująco. Po pierwsze zauważmy, że maksima aproksymacji negentropii w T x zawierają się w pewnych obszarach (??optima??) E{G(w T x)}. Stosownie do warunków Kuhn-Tuckera obszary E{G(w T x)} pod warunkiem, że E{G(w T x) 2 } = w 2 = 1 zawierają się w punktach, gdzie: E{xg(w T x)} βw = 0 (1.48) Spróbujmy rozwiązać to równanie za pomocą metody Newtona. Oznaczmy lewą stronę równania 1.48 przez F. Otrzymujemy macierz Jacobiana JF (w) jako: JF (w) = E{xx T g (w T x)} βi (1.49)

29 1.6. ALGORYTM FASTICA 23 By ułatwić odwrócenie tej macierzy aproksymujemy pierwszą część równania Ponieważ dane mają zakres (??sphered??) to rozsądną aproksymacją zdaje się być: E{xx T g (w T x)} E{xx T }E{g (w T x)} = E{g (w T x)}i (1.50) To powoduje, że Jacobian staję się diagonalny i łatwo daje się odwrócić. Stąd otrzymujemy następującą aproksymację iteracji Newtona: w + = w [E{xg(w T x)} βw]/[e{g (w T x)} β] (1.51) Algorytm może zostać w dalszej części uproszczony przez pomnożenie obu stron równania 1.51 przez β E{g (w T x)}. To daje, po uproszczeniach algebraicznych iterację FastICA FastICA dla wielu jednostek FastICA dla jednej jednostki opisany w poprzednim podrozdziale estymuje jedynie jeden niezależny komponent lub jeden kierunek projection pursuit. By estymować wiele niezależnych komponentów musimy uruchomić jedno-jednostkowego FastICA używając wielu jednostek (np. neuronów) z wektorami wag w 1,, w n. By zapobiec zbieżności różnych wektorów do tych samych maksimów musimy zdekorelować wyjścia w1 T x,..., wt n x po każdej iteracji. Poniżej zaprezentujemy trzy metody uzyskiwania tego. Prostym sposobem uzyskania dekorelacji jest schemat deflacji oparty na ortogonalizacji Grama-Schmidta. Oznacza to, że estymujemy niezależne komponenty jeden po drugim. Kiedy mamy p estymowanych niezależnych komponentów lub p wektorów w 1,, w p uruchamiamy jedno-jednostkowy algorytm oparty o punkt stały dla w p+1. Po każdym kroku iteracji wydobywamy z w p+1 rzuty wp+1 T w jw j dla j = 1,, p wcześniej estymowanych p wektorów. Następnie renormalizujemy w p+1 : 1. w p+1 = w p+1 p j=1 wt p+1 w jw j 2. w p+1 = w p+1 / wp+1 T w (1.52) p+1 W pewnych aplikacjach jednakże może być wymagane by użyć symetrycznej dekorelacji, w której żaden wektor nie jest bardziej uprzywilejowany od pozostałych. Może to być wykonane np. za pomocą klasycznych metod łącznie z pierwiastkiem kwadratowym z macierzy: W = (W W T ) 1 2 W (1.53) gdzie W jest macierzą złożona z wektorów (w 1,, w n ) T i pierwiastek kwadratowy odwrotnej macierzy (W W 1 2 ) pochodzi z dekompozycji wartości własnych macierzy W W T = F DF T jako (W W T ) 1 2 = F D 1 2 W. Prostą alternatywą jest

30 24 ROZDZIAŁ 1. ICA - METODA NIEZALEŻNYCH SKŁADOWYCH następujący algorytm iteracyjny: 1. W = W/ W W T Powtarzaj 2. do uzyskania zbieżności 2. W = 3 2 W 1 2 W W T W (1.54) FastICA i maksymalne prawdopodobieństwo W końcu otrzymaliśmy wersję algorytmu FastICA, która pokazuje wyraźnie połączenie z dobrze znaną metodą infomax lub algorytmem maksymalnego prawdopodobieństwa. Jeśli wyrazimy FastICA używając pośredniej formuły z 1.51 i zapisali ją w postaci macierzowej zobaczymy, że FastICA przybiera następującą formę: W + = W + diag(α i )[diag(β i ) + E{g(y)y T }]W (1.55) gdzie y = W X, β i = E{y i g(y i )} oraz α i = 1/(β i E{g (y i )}). Macierz W musi być zortogonalizowana po każdym kroku. W wersji macierzowej naturalnym jest zortogonalizowane W symetrycznie. Powyższa wersja FastICA powinna być porównana ze stochastyczną metodą gradientu do maksymalizowania prawdopodobieństwa: W + = W + µ[i + g(y)y T ]W (1.56) gdzie µ jest współczynnikiem uczenia, niekoniecznie stałym w tym momencie. Teraz, g jest funkcją niezależnych komponentów: g = f i /f i gdzie f i jest niezależnego komponentu. Porównując 1.55 i 1.56 widzimy, że FastICA może być rozważana jako algorytm oparty na punkcie stałym do estymacji maksymalnego prawdopodobieństwa w modelu ICA. W FastICA szybkość zbieżności jest zoptymalizowana przez wybór macierzy diag(α i ) i diag(β i ). Inną zaletą FastICA jest to, że może on estymować sub-gaussowe i super-gaussowe niezależne komponenty co jest przewagą nad prostymi algorytmami??, które mogą pracować jedynie z pewnymi klasami rozkładu (patrz 1.4.4) Właściwości algorytmu FastICA Algorytm FastICA i należące do niego funkcje posiadają wiele pożytecznych właściwości gdy porówna się je do istniejących metod ICA. 1. Zbieżność jest sześcienna (lub przynajmniej kwadratowa), przy założeniach dla modelu danych ICA. Jest to kontrastowa własności w porównaniu ze zwykłymi algorytmami ICA bazującymi na stochastycznych metodach gradientu gdzie zbieżność jest jedynie liniowa.

31 1.6. ALGORYTM FASTICA W porównaniu z algorytmami opartymi o gradient w FastICA nie trzeba wybierać parametru wielkości kroku. Oznacza to, że algorytm jest łatwy w użyciu. 3. Algorytm znajduje bezpośrednio niezależne komponenty o dowolnym niegaussowym rozkładzie używając dowolnego nieliniowego g. W wielu innych algorytmach należy znać najpierw funkcję rozkładu i nieliniowość musi być wcześniej ustalona. 4. Złożoność metody może być zoptymalizowana poprzez odpowiednie wybranie nieliniowego g. 5. Niezależne komponenty mogą być estymowane jeden po drugim co jest mniej więcej równoważne z projection pursuit. Jest to użyteczne podczas przeprowadzania analizy danych i zmniejsza złożoność obliczeniową metody w miejscach, w których jedynie niektóre niezależne komponenty muszą być estymowane. 6. FastICA posiada większość zalet algorytmów neuronowych. Jest równoległy, obliczeniowo prosty i wymaga małej ilości pamięci.

32

33 Rozdział 2 Tytuł drugiego rozdziału... jakiś tekst... Jakieś cytowanie literatury [1] Pewne symbole: DMC, LZ77, LZ78. 27

34

35 Bibliografia [1] Aapo Hyvärinen and Erkki Oja. Independent Component Analysis: Algorithms and Applications. Neural Networks Research Centre, Helsinki University of Technology, P.O. Box 5400, FIN HUT, Finland, [cytowanie na str. 27] 29

36

37 Appendices 31

38

39 Dodatek A Tytuł dodatku... jakiś tekst... 33

40

41 Spis symboli i skrótów Abbreviation Description Definition ML Muszę odnaleźć do w tekście page?? PP Projection Pursuit page 17 EVD Eigen-Value Decomposition page 19 pdf probability density function page 7 35

42 Spis rysunków Ilustracja

43 Spis tabel 37

44

45 Skorowidz tekst, 25 39

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU obraz dr inż. Jacek Naruniec Analiza Składowych Niezależnych (ICA) Independent Component Analysis Dąży do wyznaczenia zmiennych niezależnych z obserwacji Problem opiera

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metody kierunków poparwy (metoda Newtona-Raphsona, metoda gradientów sprzężonych) Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 28.03.2019 1

Bardziej szczegółowo

5. Rozwiązywanie układów równań liniowych

5. Rozwiązywanie układów równań liniowych 5. Rozwiązywanie układów równań liniowych Wprowadzenie (5.1) Układ n równań z n niewiadomymi: a 11 +a 12 x 2 +...+a 1n x n =a 10, a 21 +a 22 x 2 +...+a 2n x n =a 20,..., a n1 +a n2 x 2 +...+a nn x n =a

Bardziej szczegółowo

Wstęp do metod numerycznych Eliminacja Gaussa Równania macierzowe. P. F. Góra

Wstęp do metod numerycznych Eliminacja Gaussa Równania macierzowe. P. F. Góra Wstęp do metod numerycznych Eliminacja Gaussa Równania macierzowe P. F. Góra http://th-www.if.uj.edu.pl/zfs/gora/ 2015 Co można zrobić z układem równań... tak, aby jego rozwiazania się nie zmieniły? Rozważam

Bardziej szczegółowo

Programowanie celowe #1

Programowanie celowe #1 Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

Analiza składowych głównych

Analiza składowych głównych Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi

Bardziej szczegółowo

1 Układy równań liniowych

1 Układy równań liniowych II Metoda Gaussa-Jordana Na wykładzie zajmujemy się układami równań liniowych, pojawi się też po raz pierwszy macierz Formalną (i porządną) teorią macierzy zajmiemy się na kolejnych wykładach Na razie

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

0 + 0 = 0, = 1, = 1, = 0.

0 + 0 = 0, = 1, = 1, = 0. 5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,

Bardziej szczegółowo

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcja homograficzna. Definicja. Funkcja homograficzna jest to funkcja określona wzorem f() = a + b c + d, () gdzie współczynniki

Bardziej szczegółowo

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora

Bardziej szczegółowo

WYKŁAD 9 METODY ZMIENNEJ METRYKI

WYKŁAD 9 METODY ZMIENNEJ METRYKI WYKŁAD 9 METODY ZMIENNEJ METRYKI Kierunki sprzężone. Metoda Newtona Raphsona daje dobre przybliżenie najlepszego kierunku poszukiwań, lecz jest to okupione znacznym kosztem obliczeniowym zwykle postać

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

KADD Metoda najmniejszych kwadratów funkcje nieliniowe Metoda najmn. kwadr. - funkcje nieliniowe Metoda najmniejszych kwadratów Funkcje nieliniowe Procedura z redukcją kroku iteracji Przykłady zastosowań Dopasowanie funkcji wykładniczej Dopasowanie funkcji

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład XIII: Prognoza. 26 stycznia 2015 Wykład XIII: Prognoza. Prognoza (predykcja) Przypuśćmy, że mamy dany ciąg liczb x 1, x 2,..., x n, stanowiących wyniki pomiaru pewnej zmiennej w czasie wielkości

Bardziej szczegółowo

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k. Funkcje wymierne Jerzy Rutkowski Teoria Przypomnijmy, że przez R[x] oznaczamy zbiór wszystkich wielomianów zmiennej x i o współczynnikach rzeczywistych Definicja Funkcją wymierną jednej zmiennej nazywamy

Bardziej szczegółowo

3. Macierze i Układy Równań Liniowych

3. Macierze i Układy Równań Liniowych 3. Macierze i Układy Równań Liniowych Rozważamy równanie macierzowe z końcówki ostatniego wykładu ( ) 3 1 X = 4 1 ( ) 2 5 Podstawiając X = ( ) x y i wymnażając, otrzymujemy układ 2 równań liniowych 3x

Bardziej szczegółowo

TEORETYCZNE PODSTAWY INFORMATYKI

TEORETYCZNE PODSTAWY INFORMATYKI 1 TEORETYCZNE PODSTAWY INFORMATYKI 16/01/2017 WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Repetytorium złożoność obliczeniowa 2 Złożoność obliczeniowa Notacja wielkie 0 Notacja Ω i Θ Rozwiązywanie

Bardziej szczegółowo

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora.

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora. 1. Podstawy matematyki 1.1. Geometria analityczna W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora. Skalarem w fizyce nazywamy

Bardziej szczegółowo

Ekonometria - ćwiczenia 10

Ekonometria - ćwiczenia 10 Ekonometria - ćwiczenia 10 Mateusz Myśliwski Zakład Ekonometrii Stosowanej Instytut Ekonometrii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa 14 grudnia 2012 Wprowadzenie Optymalizacja liniowa Na

Bardziej szczegółowo

Układy równań i nierówności liniowych

Układy równań i nierówności liniowych Układy równań i nierówności liniowych Wiesław Krakowiak 1 grudnia 2010 1 Układy równań liniowych DEFINICJA 11 Układem równań m liniowych o n niewiadomych X 1,, X n, nazywamy układ postaci: a 11 X 1 + +

Bardziej szczegółowo

Programowanie liniowe

Programowanie liniowe Programowanie liniowe Maciej Drwal maciej.drwal@pwr.wroc.pl 1 Problem programowania liniowego min x c T x (1) Ax b, (2) x 0. (3) gdzie A R m n, c R n, b R m. Oznaczmy przez x rozwiązanie optymalne, tzn.

Bardziej szczegółowo

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować

Bardziej szczegółowo

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:

Bardziej szczegółowo

FUNKCJA LINIOWA - WYKRES

FUNKCJA LINIOWA - WYKRES FUNKCJA LINIOWA - WYKRES Wzór funkcji liniowej (Postać kierunkowa) Funkcja liniowa jest podstawowym typem funkcji. Jest to funkcja o wzorze: y = ax + b a i b to współczynniki funkcji, które mają wartości

Bardziej szczegółowo

Przepustowość kanału, odczytywanie wiadomości z kanału, poprawa wydajności kanału.

Przepustowość kanału, odczytywanie wiadomości z kanału, poprawa wydajności kanału. Przepustowość kanału, odczytywanie wiadomości z kanału, poprawa wydajności kanału Wiktor Miszuris 2 czerwca 2004 Przepustowość kanału Zacznijmy od wprowadzenia równości IA, B HB HB A HA HA B Można ją intuicyjnie

Bardziej szczegółowo

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę

Bardziej szczegółowo

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: Zmienne losowe skokowe (dyskretne) przyjmujące co najwyżej przeliczalnie wiele wartości Zmienne losowe ciągłe

Bardziej szczegółowo

Zajęcia nr. 3 notatki

Zajęcia nr. 3 notatki Zajęcia nr. 3 notatki 22 kwietnia 2005 1 Funkcje liczbowe wprowadzenie Istnieje nieskończenie wiele funkcji w matematyce. W dodaktu nie wszystkie są liczbowe. Rozpatruje się funkcje które pobierają argumenty

Bardziej szczegółowo

Metody numeryczne Wykład 4

Metody numeryczne Wykład 4 Metody numeryczne Wykład 4 Dr inż. Michał Łanczont Instytut Elektrotechniki i Elektrotechnologii E419, tel. 4293, m.lanczont@pollub.pl, http://m.lanczont.pollub.pl Zakres wykładu Metody skończone rozwiązywania

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój 1 REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój 2 DOTYCHCZASOWE MODELE Regresja liniowa o postaci: y

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład XV: Zagadnienia redukcji wymiaru danych 2 lutego 2015 r. Standaryzacja danych Standaryzacja danych Własności macierzy korelacji Definicja Niech X będzie zmienną losową o skończonym drugim momencie.

Bardziej szczegółowo

Metody numeryczne I Równania nieliniowe

Metody numeryczne I Równania nieliniowe Metody numeryczne I Równania nieliniowe Janusz Szwabiński szwabin@ift.uni.wroc.pl Metody numeryczne I (C) 2004 Janusz Szwabiński p.1/66 Równania nieliniowe 1. Równania nieliniowe z pojedynczym pierwiastkiem

Bardziej szczegółowo

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski Modelowanie zależności pomiędzy zmiennymi losowymi Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski P Zmienne losowe niezależne - przypomnienie Dwie rzeczywiste zmienne losowe X i Y

Bardziej szczegółowo

Lista 6. Kamil Matuszewski 13 kwietnia D n =

Lista 6. Kamil Matuszewski 13 kwietnia D n = Lista 6 Kamil Matuszewski 3 kwietnia 6 3 4 5 6 7 8 9 Zadanie Mamy Pokaż, że det(d n ) = n.... D n =.... Dowód. Okej. Dla n =, n = trywialne. Załóżmy, że dla n jest ok, sprawdzę dla n. Aby to zrobić skorzystam

Bardziej szczegółowo

1 Wartości własne oraz wektory własne macierzy

1 Wartości własne oraz wektory własne macierzy Rozwiązania zadania umieszczonego na końcu poniższych notatek proszę przynieść na kartkach Proszę o staranne i formalne uzasadnienie odpowiedzi Za zadanie można uzyskać do 6 punktów (jeżeli przyniesione

Bardziej szczegółowo

Rachunek wektorowy - wprowadzenie. dr inż. Romuald Kędzierski

Rachunek wektorowy - wprowadzenie. dr inż. Romuald Kędzierski Rachunek wektorowy - wprowadzenie dr inż. Romuald Kędzierski Graficzne przedstawianie wielkości wektorowych Długość wektora jest miarą jego wartości Linia prosta wyznaczająca kierunek działania wektora

Bardziej szczegółowo

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań ... Robert Susmaga Instytut Informatyki ul. Piotrowo 2 Poznań kontakt mail owy Robert.Susmaga@CS.PUT.Poznan.PL kontakt osobisty Centrum Wykładowe, blok informatyki, pok. 7 Wyłączenie odpowiedzialności

Bardziej szczegółowo

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +

Bardziej szczegółowo

1 Macierz odwrotna metoda operacji elementarnych

1 Macierz odwrotna metoda operacji elementarnych W tej części skupimy się na macierzach kwadratowych. Zakładać będziemy, że A M(n, n) dla pewnego n N. Definicja 1. Niech A M(n, n). Wtedy macierzą odwrotną macierzy A (ozn. A 1 ) nazywamy taką macierz

Bardziej szczegółowo

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH Transport, studia I stopnia rok akademicki 2011/2012 Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Uwagi wstępne Układ liniowych równań algebraicznych można

Bardziej szczegółowo

a 11 a a 1n a 21 a a 2n... a m1 a m2... a mn x 1 x 2... x m ...

a 11 a a 1n a 21 a a 2n... a m1 a m2... a mn x 1 x 2... x m ... Wykład 15 Układy równań liniowych Niech K będzie ciałem i niech α 1, α 2,, α n, β K. Równanie: α 1 x 1 + α 2 x 2 + + α n x n = β z niewiadomymi x 1, x 2,, x n nazywamy równaniem liniowym. Układ: a 21 x

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH Transport, studia niestacjonarne I stopnia, semestr I Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Postać układu równań liniowych Układ liniowych równań algebraicznych

Bardziej szczegółowo

Z52: Algebra liniowa Zagadnienie: Zastosowania algebry liniowej Zadanie: Operatory różniczkowania, zagadnienie brzegowe.

Z52: Algebra liniowa Zagadnienie: Zastosowania algebry liniowej Zadanie: Operatory różniczkowania, zagadnienie brzegowe. Z5: Algebra liniowa Zagadnienie: Zastosowania algebry liniowej Zadanie: Operatory różniczkowania zagadnienie brzegowe Dyskretne operatory różniczkowania Numeryczne obliczanie pochodnych oraz rozwiązywanie

Bardziej szczegółowo

VII. Elementy teorii stabilności. Funkcja Lapunowa. 1. Stabilność w sensie Lapunowa.

VII. Elementy teorii stabilności. Funkcja Lapunowa. 1. Stabilność w sensie Lapunowa. VII. Elementy teorii stabilności. Funkcja Lapunowa. 1. Stabilność w sensie Lapunowa. W rozdziale tym zajmiemy się dokładniej badaniem stabilności rozwiązań równania różniczkowego. Pojęcie stabilności w

Bardziej szczegółowo

Układy równań liniowych

Układy równań liniowych Układy równań liniowych Niech K będzie ciałem. Niech n, m N. Równanie liniowe nad ciałem K z niewiadomymi (lub zmiennymi) x 1, x 2,..., x n K definiujemy jako formę zdaniową zmiennej (x 1,..., x n ) K

Bardziej szczegółowo

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory; Wykłady 8 i 9 Pojęcia przestrzeni wektorowej i macierzy Układy równań liniowych Elementy algebry macierzy dodawanie, odejmowanie, mnożenie macierzy; macierz odwrotna dr Mariusz Grządziel 15,29 kwietnia

Bardziej szczegółowo

Ważne rozkłady i twierdzenia c.d.

Ważne rozkłady i twierdzenia c.d. Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Analiza regresji - weryfikacja założeń

Analiza regresji - weryfikacja założeń Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.

Bardziej szczegółowo

macierze jednostkowe (identyczności) macierze diagonalne, które na przekątnej mają same

macierze jednostkowe (identyczności) macierze diagonalne, które na przekątnej mają same 1 Macierz definicja i zapis Macierzą wymiaru m na n nazywamy tabelę a 11 a 1n A = a m1 a mn złożoną z liczb (rzeczywistych lub zespolonych) o m wierszach i n kolumnach (zamiennie będziemy też czasem mówili,

Bardziej szczegółowo

13 Układy równań liniowych

13 Układy równań liniowych 13 Układy równań liniowych Definicja 13.1 Niech m, n N. Układem równań liniowych nad ciałem F m równaniach i n niewiadomych x 1, x 2,..., x n nazywamy koniunkcję równań postaci a 11 x 1 + a 12 x 2 +...

Bardziej szczegółowo

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne

Bardziej szczegółowo

Macierze. Rozdział Działania na macierzach

Macierze. Rozdział Działania na macierzach Rozdział 5 Macierze Funkcję, która każdej parze liczb naturalnych (i, j) (i 1,..., n; j 1,..., m) przyporządkowuje dokładnie jedną liczbę a ij F, gdzie F R lub F C, nazywamy macierzą (rzeczywistą, gdy

Bardziej szczegółowo

Rozdział 1 PROGRAMOWANIE LINIOWE

Rozdział 1 PROGRAMOWANIE LINIOWE Wprowadzenie do badań operacyjnych z komputerem Opisy programów, ćwiczenia komputerowe i zadania. T. Trzaskalik (red.) Rozdział 1 PROGRAMOWANIE LINIOWE 1.2 Ćwiczenia komputerowe Ćwiczenie 1.1 Wykorzystując

Bardziej szczegółowo

Rozwiązywanie układów równań liniowych

Rozwiązywanie układów równań liniowych Rozwiązywanie układów równań liniowych Marcin Orchel 1 Wstęp Jeśli znamy macierz odwrotną A 1, to możęmy znaleźć rozwiązanie układu Ax = b w wyniku mnożenia x = A 1 b (1) 1.1 Metoda eliminacji Gaussa Pierwszy

Bardziej szczegółowo

Treść wykładu. Układy równań i ich macierze. Rząd macierzy. Twierdzenie Kroneckera-Capellego.

Treść wykładu. Układy równań i ich macierze. Rząd macierzy. Twierdzenie Kroneckera-Capellego. . Metoda eliminacji. Treść wykładu i ich macierze... . Metoda eliminacji. Ogólna postać układu Układ m równań liniowych o n niewiadomych x 1, x 2,..., x n : a 11 x 1 + a 12 x 2 + + a 1n x n = b 1 a 21

Bardziej szczegółowo

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej KATEDRA MATEMATYKI TEMAT PRACY: ROZKŁAD NORMALNY ROZKŁAD GAUSSA AUTOR: BARBARA MARDOSZ Kraków, styczeń 2008 Spis treści 1 Wprowadzenie 2 2 Definicja

Bardziej szczegółowo

Własności wyznacznika

Własności wyznacznika Własności wyznacznika Rozwinięcie Laplace a względem i-tego wiersza: n det(a) = ( 1) i+j a ij M ij (A), j=1 gdzie M ij (A) to minor (i, j)-ty macierzy A, czyli wyznacznik macierzy uzyskanej z macierzy

Bardziej szczegółowo

Rozwiązywanie równań nieliniowych

Rozwiązywanie równań nieliniowych Rozwiązywanie równań nieliniowych Marcin Orchel 1 Wstęp Przykłady wyznaczania miejsc zerowych funkcji f : f(ξ) = 0. Wyszukiwanie miejsc zerowych wielomianu n-tego stopnia. Wymiar tej przestrzeni wektorowej

Bardziej szczegółowo

Analiza współzależności zjawisk

Analiza współzależności zjawisk Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.

Bardziej szczegółowo

METODY ROZWIĄZYWANIA RÓWNAŃ NIELINIOWYCH

METODY ROZWIĄZYWANIA RÓWNAŃ NIELINIOWYCH METODY ROZWIĄZYWANIA RÓWNAŃ NIELINIOWYCH Jednym z zastosowań metod numerycznych jest wyznaczenie pierwiastka lub pierwiastków równania nieliniowego. W tym celu stosuje się szereg metod obliczeniowych np:

Bardziej szczegółowo

Notatki do tematu Metody poszukiwania rozwiązań jednokryterialnych problemów decyzyjnych metody dla zagadnień liniowego programowania matematycznego

Notatki do tematu Metody poszukiwania rozwiązań jednokryterialnych problemów decyzyjnych metody dla zagadnień liniowego programowania matematycznego Notatki do tematu Metody poszukiwania rozwiązań jednokryterialnych problemów decyzyjnych metody dla zagadnień liniowego programowania matematycznego część III Analiza rozwiązania uzyskanego metodą simpleksową

Bardziej szczegółowo

Statystyka i eksploracja danych

Statystyka i eksploracja danych Wykład XII: Zagadnienia redukcji wymiaru danych 12 maja 2014 Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X ). Definicja

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Formy kwadratowe. Rozdział 10

Formy kwadratowe. Rozdział 10 Rozdział 10 Formy kwadratowe Rozważmy rzeczywistą macierz symetryczną A R n n Definicja 101 Funkcję h : R n R postaci h (x) = x T Ax (101) nazywamy formą kwadratową Macierz symetryczną A występującą w

Bardziej szczegółowo

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Analiza głównych składowych- redukcja wymiaru, wykł. 12 Analiza głównych składowych- redukcja wymiaru, wykł. 12 Joanna Jędrzejowicz Instytut Informatyki Konieczność redukcji wymiaru w eksploracji danych bazy danych spotykane w zadaniach eksploracji danych mają

Bardziej szczegółowo

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe Nierówność Czebyszewa Niech X będzie zmienną losową o skończonej wariancji V ar(x). Wtedy wartość oczekiwana E(X) też jest skończona i

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 4. Metody kierunków poprawy (metoda spadku wzdłuż gradientu) Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 21.03.2019 1 / 41 Plan wykładu Minimalizacja

Bardziej szczegółowo

13. Równania różniczkowe - portrety fazowe

13. Równania różniczkowe - portrety fazowe 13. Równania różniczkowe - portrety fazowe Grzegorz Kosiorowski Uniwersytet Ekonomiczny w Krakowie rzegorz Kosiorowski (Uniwersytet Ekonomiczny 13. wrównania Krakowie) różniczkowe - portrety fazowe 1 /

Bardziej szczegółowo

Procesy stochastyczne

Procesy stochastyczne Wykład I: Istnienie procesów stochastycznych 21 lutego 2017 Forma zaliczenia przedmiotu Forma zaliczenia Literatura 1 Zaliczenie ćwiczeń rachunkowych. 2 Egzamin ustny z teorii 3 Do wykładu przygotowane

Bardziej szczegółowo

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje

Bardziej szczegółowo

Wstęp. Regresja logistyczna. Spis treści. Hipoteza. powrót

Wstęp. Regresja logistyczna. Spis treści. Hipoteza. powrót powrót Spis treści 1 Wstęp 2 Regresja logistyczna 2.1 Hipoteza 2.2 Estymacja parametrów 2.2.1 Funkcja wiarygodności 3 Uogólnione modele liniowe 3.1 Rodzina wykładnicza 3.1.1 Rozkład Bernouliego 3.1.2 Rozkład

Bardziej szczegółowo

Ważne rozkłady i twierdzenia

Ważne rozkłady i twierdzenia Ważne rozkłady i twierdzenia Rozkład dwumianowy i wielomianowy Częstość. Prawo wielkich liczb Rozkład hipergeometryczny Rozkład Poissona Rozkład normalny i rozkład Gaussa Centralne twierdzenie graniczne

Bardziej szczegółowo

3. Wykład Układy równań liniowych.

3. Wykład Układy równań liniowych. 31 Układy równań liniowych 3 Wykład 3 Definicja 31 Niech F będzie ciałem Układem m równań liniowych o niewiadomych x 1,, x n, m, n N, o współczynnikach z ciała F nazywamy układ równań postaci: x 1 + +

Bardziej szczegółowo

1 Podstawowe oznaczenia

1 Podstawowe oznaczenia Poniżej mogą Państwo znaleźć skondensowane wiadomości z wykładu. Należy je traktować jako przegląd pojęć, które pojawiły się na wykładzie. Materiały te nie są w pełni tożsame z tym co pojawia się na wykładzie.

Bardziej szczegółowo

2. Układy równań liniowych

2. Układy równań liniowych 2. Układy równań liniowych Grzegorz Kosiorowski Uniwersytet Ekonomiczny w Krakowie zima 2017/2018 rzegorz Kosiorowski (Uniwersytet Ekonomiczny w Krakowie) 2. Układy równań liniowych zima 2017/2018 1 /

Bardziej szczegółowo

Metody numeryczne w przykładach

Metody numeryczne w przykładach Metody numeryczne w przykładach Bartosz Ziemkiewicz Wydział Matematyki i Informatyki UMK, Toruń Regionalne Koło Matematyczne 8 kwietnia 2010 r. Bartosz Ziemkiewicz (WMiI UMK) Metody numeryczne w przykładach

Bardziej szczegółowo

Definicja i własności wartości bezwzględnej.

Definicja i własności wartości bezwzględnej. Równania i nierówności z wartością bezwzględną. Rozwiązywanie układów dwóch (trzech) równań z dwiema (trzema) niewiadomymi. Układy równań liniowych z parametrem, analiza rozwiązań. Definicja i własności

Bardziej szczegółowo

KADD Minimalizacja funkcji

KADD Minimalizacja funkcji Minimalizacja funkcji Poszukiwanie minimum funkcji Foma kwadratowa Metody przybliżania minimum minimalizacja Minimalizacja w n wymiarach Metody poszukiwania minimum Otaczanie minimum Podział obszaru zawierającego

Bardziej szczegółowo

Biostatystyka, # 3 /Weterynaria I/

Biostatystyka, # 3 /Weterynaria I/ Biostatystyka, # 3 /Weterynaria I/ dr n. mat. Zdzisław Otachel Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, p. 221 bud. CIW, e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

Aproksymacja. funkcji: ,a 2. ,...,a m. - są funkcjami bazowymi m+1 wymiarowej podprzestrzeni liniowej X m+1

Aproksymacja. funkcji: ,a 2. ,...,a m. - są funkcjami bazowymi m+1 wymiarowej podprzestrzeni liniowej X m+1 Założenie: f(x) funkcja którą aproksymujemy X jest przestrzenią liniową Aproksymacja liniowa funkcji f(x) polega na wyznaczeniu współczynników a 0,a 1,a 2,...,a m funkcji: Gdzie: - są funkcjami bazowymi

Bardziej szczegółowo

Zaawansowane metody numeryczne

Zaawansowane metody numeryczne Wykład 10 Rozkład LU i rozwiązywanie układów równań liniowych Niech będzie dany układ równań liniowych postaci Ax = b Załóżmy, że istnieją macierze L (trójkątna dolna) i U (trójkątna górna), takie że macierz

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Własności statystyczne regresji liniowej. Wykład 4

Własności statystyczne regresji liniowej. Wykład 4 Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności

Bardziej szczegółowo

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji Wykład 11. Metoda najmniejszych kwadratów Szukamy zależności Dane są wyniki pomiarów dwóch wielkości x i y: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Przypuśćmy, że nanieśliśmy je na wykres w układzie

Bardziej szczegółowo

Wykład 7: Warunkowa wartość oczekiwana. Rozkłady warunkowe.

Wykład 7: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Rachunek prawdopodobieństwa MAP3040 WPPT FT, rok akad. 2010/11, sem. zimowy Wykładowca: dr hab. Agnieszka Jurlewicz Wykład 7: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Warunkowa wartość oczekiwana.

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Następnie przypominamy (dla części studentów wprowadzamy) podstawowe pojęcia opisujące funkcje na poziomie rysunków i objaśnień.

Następnie przypominamy (dla części studentów wprowadzamy) podstawowe pojęcia opisujące funkcje na poziomie rysunków i objaśnień. Zadanie Należy zacząć od sprawdzenia, co studenci pamiętają ze szkoły średniej na temat funkcji jednej zmiennej. Na początek można narysować kilka krzywych na tle układu współrzędnych (funkcja gładka,

Bardziej szczegółowo

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu 1 Metody rozwiązywania równań nieliniowych. Postawienie problemu Dla danej funkcji ciągłej f znaleźć wartości x, dla których f(x) = 0. (1) 2 Przedział izolacji pierwiastka Będziemy zakładać, że równanie

Bardziej szczegółowo