ZASTOSOWANIE METOD ANALIZY STATYSTYCZNEJ ORAZ EKSPLORACJI DANYCH DO KLASYFIKACJI OBRAZÓW HISTOPATOLOGICZNYCH HER2

Wielkość: px
Rozpocząć pokaz od strony:

Download "ZASTOSOWANIE METOD ANALIZY STATYSTYCZNEJ ORAZ EKSPLORACJI DANYCH DO KLASYFIKACJI OBRAZÓW HISTOPATOLOGICZNYCH HER2"

Transkrypt

1 Karol Radziszewski, Krzysztof Sikora, Marek Skowroński, Specjalność: Inteligentne systemy informatyczne Prowadząca: prof. dr hab. inż. H. Kwaśnicka SYSTEMY WIZYJNE ZASTOSOWANIE METOD ANALIZY STATYSTYCZNEJ ORAZ EKSPLORACJI DANYCH DO KLASYFIKACJI OBRAZÓW HISTOPATOLOGICZNYCH HER2 Abstrakt: Zakres projektu obejmuje zaprojektowanie wektora cech, opisującego wskazane obrazy. Następnie na podstawie analizy statystycznej i metod drążenia danych podjęta zostanie próba budowy klasyfikatora tych obrazów na zadane klasy. Powstały klasyfikator będzie wspierał proces podejmowania decyzji o przyznaniu pacjentowi wskazanego leku, reprezentowanego przez wskazane obrazy histopatologiczne. W szczególności ma on pozwolić na rozpoznanie typu komórek nowotworowych dla wskazanego materiału badawczego. Pozwoli to określić skład utkania nowotworu, a co za tym idzie prawidłowe rozpoznanie histopatologiczne.

2 SPIS TREŚCI 1. Opis problemu Medyczny punkt widzenia Informatyczny punkt widzenia Krótki opis zastosowanych narzędzi analizy danych Narzędzia predykcji: Regresja liniowa Regresja wielomianowa Narzędzia klasyfikacji Perceptron wielowarstwowy Radialna sieć neuronowa Probabilistyczna sieć neuronowa SOTA Naiwny klasyfikator bayesowski Narzędzia redukcji wymiarowości PCA MDS Macierz korelacji Schemat badań Wyniki badań Analiza uzyskanych wyników Analiza porównawcza klasyfikatorów Analiza porównawcza metod redukcji wymiarowości cech Obserwacje, spostrzeżenia Dalsze kierunki prac Bibliografia

3 1. OPIS PROBLEMU 1.1. MEDYCZNY PUNKT WIDZENIA Podstawowym elementem zaproponowanego projektu badawczego jest przetwarzanie oraz analiza obrazów histopatologicznych (z natury obrazy wielokolorowe). Zbadane zostaną preparaty raka przewodowego gruczołu piersiowego obrazujące ekspresję naskórkowego czynnika wzrostu typu 2 (HER2/neu), gdyż ocena ekspresji tego błonowego białka ma duże znaczenie w postępowaniu diagnostyczno-leczniczym i jest oceną subiektywną (oko ludzkie). Poza obrazami HER-2 badaniami ujęte zostaną również inne białka wykazujące błonową ekspresję tj. E- kadheryna, EGFR (epidermal growth factor receptor) oraz MT-1R (melatonin type 1 receptor) w rakach przewodowych gruczołu piersiowego. Tym samym elementem kluczowym w ramach proponowanego grantu będzie wprowadzenie dokładnych, wiarygodnych oraz automatycznych metod przetwarzania obrazów histopatologicznych. Podstawowym problem badawczym proponowanego projektu badawczego stanowić będzie właściwa analiza obrazów przedstawiających ekspresje receptora HER2 (poniżej w skrócie, obrazy te określane są jako Obrazy HER2 ). Właściwa analiza nie tylko będzie dedykowana problematyce rozpoznania obiektów na obrazach HER2, lecz również będzie dotyczyć problemu rozpoznania kategorii obrazu ([0], [1+], [2+] oraz [3+]). Poniżej przedstawiono obrazy HER2 różnych kategorii (rys. 1 4). 3

4 Podstawowy mankament dotychczas stosowanej analizy preparatów histopatologicznych polega na tym, że analizowane były tylko cechy jakościowe (niemierzalne), co bardzo ogranicza możli- 4

5 wość użycia metod obliczeniowych i nie pozwala rozwiązać bardziej zaawansowanych problemów badawczych. Proponowany proces segmentacji obrazów umożliwia określenie cech ilościowych badanego materiału. Pozwala to na ich dalszą analizę pod kątem uporządkowania, klasyfikacji oraz porównania, jak również umożliwi to przeprowadzenie bardziej zaawansowanych badań, takich jak: szukanie wzorców, powiązań, zmian lub anomalii dla pozyskanych danych. W fazie początkowej analizy, dane zostaną odpowiednio przygotowane zostanie przeprowadzony proces oczyszczania, integracji oraz zostaną zastosowane odpowiednie transformacje. Następnie dane zostaną poddane procesowi klasyfikacji. W szczególności: W przypadku badania nasilenia ekspresji receptora HER-2 w komórkach raka gruczołu piersiowego (stopień tej ekspresji ma bezpośredni wpływ na decyzje o leczeniu - tylko przy dużym nasileniu (3+) można podjąć decyzję o zastosowaniu trastuzumabu w procesie leczenia), zostanie zastosowana analiza dyskryminacyjna w celu rozpoznania grup nadekspresji białka HER-2 (podobnie dla białek tj. E-kadheryna, MT-1R oraz EGFR). Przeprowadzone zostaną badania dotyczące rozpoznania typów komórek nowotworowych dla analizowanego materiału badawczego. Pozwoli to określić skład utkania nowotworu, a co za tym idzie prawidłowe rozpoznanie histopatologiczne. Zostanie zastosowana analiza dyskryminacyjna, analiza czynnikowa w celu redukcji wymiarowości przestrzeni cech oraz w celu zbadania prawidłowości i powiązań w badanym zbiorze danych, oraz analiza wariancji do wykazania różnic w badanych obiektach INFORMATYCZNY PUNKT WIDZENIA Odkładając na bok bardzo naukowy opis problemu z punktu widzenia medycyny, spróbujmy zdefiniować właściwy problem, który będziemy się starać rozwiązać, korzystając z wiedzy i możliwości, jakie dają nauki techniczne (w szczególności informatyczne, a konkretnie - przetwarzanie obrazów). Naszym zadaniem będzie budowa pewnego wektora cech dla każdego obrazu wejściowego. Wektor ten, a nie obraz jako taki (macierz pikseli), będzie właściwym wejściem do klasyfikatora. Klasyfikator zaś to moduł, którego zadaniem jest znalezienie takiego przyporządkowania, które na podstawie danych trenujących będzie potrafiło przekształcić dany wektor wejściowy na liczbę, uzyskiwaną na wyjściu, reprezentującą klasę danego obrazka. 5

6 W związku z tym, aby poprawnie zdefiniować problem, należy udzielić odpowiedzi na dwa pytania: 1. W jaki sposób reprezentować wektor wejściowy (innymi słowy: jakiego typu dane powinny opisywać obraz)? 2. Jaki klasyfikator wybrać? Odpowiedzią na drugie pytanie jest temat tego opracowania. Do klasyfikacji wykorzystane zostaną różne klasyfikatory, wybrane z bazy dostępnych opracowań w środowisku KNIME, które to środowisko zostanie wykorzystane, jako baza do testów, badań i symulacji. Zdecydowaliśmy się na wybór następujących klasyfikatorów: Perceptron wielowarstwowy (ang. multi-layered perceptron, MLP) Probabilistyczna sieć neuronowa (ang. probabilistic neural network, PNN) Radialna sieć neuronowa (ang. radial neural network, RNN) Algorytm samoorganizującego się drzewa (ang, self-organizing tree algorithm, SOTA) Naiwny klasyfikator bayesowski (ang. Naive Bayes, NBAY) Obok typowych klasyfikatorów, testom poddaliśmy też predyktory, operujące na danych ciągłych (numerycznych). Tu nas wybór padł na najbardziej tradycyjne metody: Regresja liniowa Regresja wielomianowa Wciąż jednak pozostaje ważne i aktualne pytanie pierwsze. Jak reprezentować obraz? Niestety nie istnieje odpowiedź, co do której poprawności można by mieć stuprocentową pewność. Problem ekstrakcji cech z obrazów jest tematem wielu rozważań naukowców i jedyne sensowne stanowisko, jakie udało się do tej pory wypracować mówi, iż nie istnieje jeden uniwersalny model transformacji obrazu wejściowego do wektora cech. Innymi słowy sposób reprezentacji i wybór cech zależy od konkretnego problemu. Aby jednak nie wymyślać na nowo koła, zdecydowaliśmy się wybrać reprezentację zaproponowaną przez Kostopoulosa Spilousa [1], który w swojej rozprawie doktorskiej zawarł pewien interesujący projekt wektora cech. Zdaniem Greka, w przypadku problemów rozpoznawania obrazów biomedycznych, wektor cech obrazu powinien składać się z trzech podwektorów. Każdy taki podwektor jest zbudowany z innych danych wejściowych: a) Podwektor cech oparty na analizie statystycznej niskiego rzędu (analiza histogramu) : i. Wartość średnia ii. Odchylenie standardowe (, ) 6

7 ( (, iii. Skośność 1, iv. Kurtoza 1, b Podwektor cech oparty na macierzy współwystępowania ang. co-occurence matrix Macierz współwystępowania tworzy się przez sprawdzenie warunku / relacji pomiędzy dwoma pikselami. Gdzie: K, L wymiary obrazu, 1 R maksymalna wielkość sąsiedztwa,, 1 0,, 1,2,, 1,2,, i. Drugi moment kątowy ang. angular second moment ASM ii. Contrast ang. contrast CON,, iii. Odwrócony moment różnicowy ang. inverse different moment IDM, 1 7

8 iv. Entropia (ang. entropy ENT) (, log (, ) v. Korelacja (ang. correlation COR) ( ) (, ) Gdzie: m x, m y, std x, std y to wartości średnie i odchylenia standardowe p x i p y, które są opisane następująco: ( ) (, ) ( ) (, ) vi. Suma kwadratów (ang. sum of squares SSQ) (1 ) (, ) vii. Suma średnich (ang. sum of averages SAVE) ( ) ( ) (, ) viii. Suma entropii (ang. sum of entropies SENT) ( ( ))log( ( )) ix. Suma wariancji (ang. sum of variances SVAR) () ( ( )) x. Wariancja różnicowa (ang. difference variance DVAR) () ( ( )) xi. Entropia różnicowa (ang. difference entropy DENT) ( ( ))log( ( )) 8

9 ( ) (, ) 2,3,, 1 c) Podwektor cech oparty na macierzy długości pasm (ang. run-length matrix) Macierz ta jest wyznaczana dla określonego kierunku (teta), a każdy jej element R(i,j) zawiera informację, ile razy wystąpiło pasmo pikseli o kolorze g oraz długości d. i. Odwrotny moment uwydatniania krótkich pasm (ang. Short run emphasis - SRE) (, )/ (, ) ii. moment uwydatniania długich pasm (ang. Long run emphasis - LRE) (, ) (, ) iii. niejednorodność skali szarości (ang. Grey level non-uniformity - GLNU) (, ) (, ) iv. niejednorodność długości pasm (ang. Run-length non-uniformity RLNU) (, ) (, ) v. wartość procentowa (ang. Run percentage RP) (, )/ Gdzie P to maksymalna wartość w macierzy. Jak łatwo zauważyć, ilość cech z macierzy współwystępowania oraz z macierzy długości pasm zależy od kilku czynników: 1. Macierz współwystępowania: a. Ilość rozważanych kierunków należy się zastanowić, czy interesują nas wyłącznie piksele położone na liniach prostopadłych względem siebie, czy może też te na liniach ukośnych. Jeśli bierzemy pod uwagę drugą możliwość, wówczas liczba cech rośnie nam dwukrotnie. 9

10 b. Ilość możliwych odległości D zwyczajowo przyjmuje się, że dla 0<D<6 uzyskuje się już dostatecznie szczegółowe cechy. c. Jeśli weźmiemy pod uwagę kierunki prostopadłe oraz ukośne i maksymalną zwyczajową ilość odległości D, otrzymujemy: i. Ilość kierunków: 8 ii. Ilość odległości: 5 iii. Ilość cech: 11 W sumie: 8*5* cech tylko z macierzy współwystępowania. 2. Macierz długości pasm: a. Ilość rozważanych kierunków podobnie jak w przypadku macierzy współwystępowania W sumie (8/ 2 4) *(ilość cech 5) 20 cech tylko z macierzy długości pasm. Otrzymujemy zatem wektor cech o długości: 1) Analiza histogramu: 4 cechy 2) Macierz współwystępowania: 440 cech 3) Macierz długości pasm: 20 cech W sumie daje to wektor cech o długości 464. Ponieważ otrzymany wektor cech ma bardzo dużo atrybutów, celowym może się wydawać zastosowanie metod redukcji wymiarowości tegoż wektora. Dlatego też obok badania skuteczności działania klasyfikatora jako jakiego, sprawdzimy również wpływ stosowania następujących metod redukcji wymiarowości: Macierz korelacji Algorytm analizy głównych składowych (PCA) Algorytm skalowania wielowymiarowego (MDS) W celu klasyfikacji danych zostaną zastosowanie różne metody analizy statycznej oraz eksploracji danych. Uzyskane wyniki zostaną poddane weryfikacji zarówno statystycznej jak i medycznej (względem wiedzy eksperta dziedzinowego). 10

11 2. KRÓTKI OPIS ZASTOSOWANYCH NARZĘDZI ANALIZY DANYCH 2.1 NARZĘDZIA PREDYKCJI: REGRESJA LINIOWA Regresja to sprowadzenie zagadnienia współzależności zmiennych losowych do zależności funkcyjnej. Na podstawie wyników badań doświadczalnych wyznacza się zależność pomiędzy zmiennymi losowymi, najczęściej w formie tzw. równania regresji, które przedstawia charakter związków pomiędzy czynnikami wejściowymi i wynikowymi. Z matematycznego punktu widzenia, regresją nazywamy dowolną metodę statystyczną pozwalającą estymować warunkową wartość oczekiwaną zmiennej losowej, zwanej zmienną objaśnianą, dla zadanych wartości innej zmiennej lub wektora zmiennych losowych (tzw. zmiennych objaśniających). W zapisie formalnym model przybiera postać: Y f(x,β) + ε lub Y f(x+ ε X,β) + ε gdzie: X wektor zmiennych objaśniających Y zmienna objaśniana β - wektor współczynników regresji f(x,β) funkcja regresji ε, ε X - błąd losowy Celem konstrukcji modelu jest przybliżenie nieznanej funkcji f przez jej estymator. Sprowadza się to do takiego wyznaczenia estymatora wektora współczynników β, aby zminimalizować w zbiorze uczącym funkcję straty. L(f, f) f(δ(a,b)) Zwykle jako miarę błędów stosuje się sumę kwadratów różnic (błędów regresji): Δ(a,b) Δ(a-b) 2 wówczas obliczenia są najprostsze - dopasowanie modelu sprowadza się do zastosowania prostej matematycznie metody najmniejszych kwadratów (MNK). 11

12 Użycie regresji: 1. Konstruowanie modelu - budowa tzw. modelu regresyjnego czyli funkcji opisującej jak zależy wartość oczekiwana zmiennej objaśniającej od zmiennych objaśnianych. Funkcja ta może być zadana nie tylko czystym wzorem matematycznym, ale także całym algorytmem, np. w postaci drzewa regresyjnego, sieci neuronowej, itp. Model konstruuje się tak, aby jak najlepiej pasował do danych z próby, zawierającej zarówno zmienne objaśniające, jak i objaśniane (tzw. zbiór uczący). 2. Wyliczanie regresji (stosowanie modelu, scoring) - użycie wyliczonego modelu do danych w których znamy tylko zmienne objaśniające, w celu wyznaczenia wartości oczekiwanej zmiennej objaśnianej. Rys , Prezentacja krzywej regresji liniowej REGRESJA WIELOMIANOWA Zaniechanie warunku liniowości może być użyteczne w przypadku analizowania zmiennych charakteryzujących się występowaniem zjawiska nasycenia. Jedną z metod dobrze odzwierciedlających nieliniowy związek pomiędzy zmiennymi jest regresja wielomianowa. Omawiana metoda oblicza zależność między zmienną zależną a jedną lub więcej zmiennymi niezależnymi, które mogą występować w wyższych potęgach. Model regresji wielomianowej z jedną zmienna objaśniającą w ogólnej postaci przedstawiono wzorem:

13 gdzie: y zmienna objaśniana, X zmienna objaśniająca (predyktor), β 0, β 1, β 2, β m parametry modelu, przy czym wyraz wolny β 0 jest punktem przecięcia linii regresji z osią rzędnych, m stopień wielomianu, tj. najwyższa potęga w jakiej pojawia się zmienna X, ε - błąd losowy. Rys Prezentacja krzywej regresji wielomianowej 2.2 NARZĘDZIA KLASYFIKACJI PERCEPTRON WIELOWARSTWOWY Perceptrony wielowarstwowe, czyli jednokierunkowe sieci wielowarstwowe są najbardziej znanymi i najczęściej wykorzystywanymi strukturami sieci. Wyróżnia się w nich warstwę wejściową, warstwy ukryte oraz warstwę wyjściową. Dzięki połączeniom neurony znajdujące się na sąsiadujących warstwach mogą się ze sobą komunikować. Wszystkie neurony wchodzące w skład sieci dokonują agregacji danych wejściowych poprzez wyznaczenie sumy ważonych wejść, funkcja aktywacji neuronów wejściowych ma charakter liniowy, neuronów ukrytych nieliniowy (najczęściej s-kształtny), zaś neuronów wyjściowych liniowy bądź nieliniowy. 13

14 W przypadku jednokierunkowych sieci jest stosowany tryb uczenia się z nauczycielem. Ich struktura jest nieskomplikowana, ale dużym problemem jest jej odpowiednia konstrukcja. Charakteryzują się one również stosunkowo długim czasem uczenia w porównaniu z innymi typami sieci. Perceptrony wielowarstwowe posiadają umiejętności ekstrapolacji, co może być wykorzystywane w rozwiązywaniu różnego typu problemów. Podczas konstrukcji modelu wykorzystującego perceptron wielowarstwowy ważnym etapem jest konstrukcja samej sieci, szczególnie jej warstw ukrytych i sposobów połączeń neuronów, od których zależeć będzie sposób funkcjonowania sieci. W sytuacji wykorzystania sieci do prognozowania szeregów czasowych bardzo istotnym zagadnieniem jest odpowiedni schemat uczenia sieci oraz dobór zmiennych wejściowych, które to mogą przyjmować wartości opóźnione. Rys Schemat perceptronu wielowarstwowego RADIALNA SIEĆ NEURONOWA Sieć radialna jest odmianą iteracyjnej sztucznej sieci neuronowej. W radialnych sztucznych sieciach neuronowych odwzorowanie zbioru wejściowego w wyjściowy jest realizowane przez dopasowanie wielu pojedynczych funkcji aproksymujących do wartości zadanych, ważne jedynie w wąskim obszarze przestrzeni wielowymiarowej. Neuron w warstwie ukrytej realizuje funkcję zmieniającą się radialnie wokół wybranego centrum c i przyjmującą wartości niezerowe tylko w otoczeniu tego centrum. Funkcję taką oznaczamy w postaci f i(x) f i( x c ) i nazywamy radialną funkcją bazową. Neuron ma za zadanie odwzorować radialną przestrzeń wokół jednego zadanego punktu lub grupy punktów stanowiących klaster. Superpozycja sygnałów od wszystkich neuronów ukrytych, dokonywana przez neuron wyjściowy, pozwala uzyskać odwzorowanie całej przestrzeni wielowymiarowej. Architektura sieci radialnych ma strukturę analogiczną do struktury wielowarstwowej sieci sigmoidalnej o jednej warstwie ukrytej, która to reprezentuje odwzorowanie nieliniowe realizowane przez neurony o radialnej funkcji bazowej. 14

15 Najprostsza sieć radialna działa na zasadzie wielowymiarowej interpolacji, która odwzorowuje p różnych wektorów wejściowych x i (i 1,2...p) z przestrzeni wejściowej N-wymiarowej w zbiór p liczb rzeczywistych d i (i 1,2...p). Odpowiada to przyjęciu p neuronów radialnych w warstwie ukrytej i określenie funkcji odwzorowania F(x), dla której spełnione są warunki interpolacji F(x) d i. Dobór liczby neuronów warstwy ukrytej w sieciach radialnych (sieciach iteracyjnych) zależy od przyjętego błędu. Neurony są dodawane iteracyjnie, 1 neuron w jednej iteracji aż do osiągnięcia błędu średniokwadratowego podanego przez użytkownika lub osiągnięcia maksymalnej liczby neuronów. Maksymalna liczba neuronów równa jest liczbie wektorów wejściowych, np. jeżeli x i (i 1,2...p), to maksymalna liczba neuronów równa jest p. Rys Schemat architektury sieci radialnej PROBABILISTYCZNA SIEĆ NEURONOWA W sieci PNN występują przynajmniej trzy warstwy: wejściowa, radialna i wyjściowa. Neurony radialne mają parametry kopiowane bezpośrednio z danych uczących; każdy z nich odpowiada jednemu przypadkowi. Wygląda to w taki sposób, że każdy z neuronów radialnych modeluje funkcję Gaussa wycentrowaną nad "swoim" przypadkiem uczącym. Natomiast w warstwie wyjściowej każdej klasie odpowiada jeden neuron. Do każdego z tych neuronów wyjściowych docierają połączenia od tych neuronów radialnych, które zostały ustawione nad punktami (zestawami danych wejściowych) należącymi do danej klasy; nie występują natomiast połączenia neuronów wyjściowych z innymi neuronami radialnymi. Neurony wyjściowe sumują więc po prostu wartości wyjściowe pojawiające się na wyjściach neuronów radialnych, należących do klasy odpowiadającej danemu neuronowi wyjściowemu. Wartości wyjściowe neuronów wyjściowych są więc proporcjonalne do estymatorów jądrowych funkcji gęstości prawdopodobieństwa dla róż- 15

16 nych klas i po zastosowaniu normalizacji zapewniającej ich sumowanie do jedności stanowią wprost oszacowania prawdopodobieństwa przynależności do poszczególnych klas. Podstawowy model sieci PNN może być zmodyfikowany na dwa sposoby. Pierwszy sposób polega na tym, że zmienia się sposób traktowania udziału reprezentacji poszczególnych klas w zbiorze uczącym. Podstawowe podejście zakłada, że udział przedstawicieli poszczególnych klas w zbiorze uczącym jest zgodny z rzeczywistym odsetkiem przypadków zaliczanych do tej klasy w modelowanej populacji (są to tak zwane prawdopodobieństwa a priori). Jeśli prawdopodobieństwo a priori różni się od udziału przypadków należących do danej klasy w ciągu uczącym, to oszacowania rozkładów wyznaczane przez sieć będą także nieprawidłowe. W celu zniwelowania wpływu takich problemów i związanych z nimi dysproporcji można w sieci jawnie wyspecyfikować prawdopodobieństwa a priori (jeśli są one znane), co spowoduje zmianę wartości wag neuronów wyjściowych sieci dla ich wejść odpowiadających neuronom ukrytym poszczególnych klas. Drugi sposób zmodyfikowania modelu sieci PNN może polegać na odmiennym traktowaniu różnych rodzajów błędów pojawiających się w trakcie uczenia i eksploatacji sieci. Ogólnie wiadomo, że sieć dokonująca estymacji nieznanego rozkładu gęstości prawdopodobieństwa w oparciu o dane zniekształcone przez szumy odtworzy potrzebną funkcję z błędami, w wyniku czego będzie nieuchronnie klasyfikować podawane jej dane w pewnych przypadkach błędnie. Skutek takich błędów jest oczywiście zawsze zdecydowanie niekorzystny, bo jest zawsze rzeczą naganną, jeśli na przykład osoba w rzeczywistości chora zostanie uznana za zdrową. Jednakże pewne rodzaje błędnej klasyfikacji mogą być uznawane za "bardziej kosztowne" niż inne. W takich przypadkach, gdy zachodzi potrzeba zróżnicowania "cen błędów" można wprowadzić do programu procedurę "ważenia" surowych prawdopodobieństw wyznaczonych przez sieć. Dokonuje się tego poprzez zastosowanie w programie specjalnie ustalanych "czynników straty", które odzwierciedlają koszty błędnej klasyfikacji - ewentualnie różne w przypadku różnych możliwych typów błędów. 16

17 Rys Schemat architektury sieci PNN SOTA Algorytm SOTA (ang. Self Organizing Tree Algorithm) jest połączeniem pewnych aspektów hierarchicznej klasteryzacji oraz map samoorganizujących (SOM). Bazując na sieci neuronowej, algorytm SOTA cechuje się wysoką skutecznością, nawet przy mocno zaszumionych danych. Cechą charakterystyczną jest topologia sieci, oparta na rozbudowującym się drzewie binarnym, mapującym w ten sposób zależności między danymi. Budowa drzewa odbywa się epokami. W każdej epoce na wejście podawany jest zbiór danych z wektora uczącego. Po prezentacji każdego ze wzorców neuron, który odpowiedział najskuteczniej aktualizuje swoje wagi. Na koniec każdego cyklu (epoki) neuron, który najczęściej odpowiadał produkuje dwóch swoich następników. Proces jest powtarzany tak długo, aż każda komórka jest dopasowana do jednego wzorca uczącego lub do momentu uzyskania warunku stopu (stopnia heterogeniczności dopasowania) NAIWNY KLASYFIKATOR BAYESOWSKI Naiwne klasyfikatory bayesowskie są oparte na założeniu o wzajemnej niezależności predyktorów (zmiennych niezależnych). Często nie mają one żadnego związku z rzeczywistością i właśnie z tego powodu nazywa się je naiwnymi. Bardziej opisowe jest określenie model cech niezależnych. Ponadto model prawdopodobieństwa można wyprowadzić korzystając z twierdzenia Bayesa. W zależności od rodzaju dokładności modelu prawdopodobieństwa, naiwne klasyfikatory bayesowskie można skutecznie uczyć w trybie uczenia z nadzorem. W wielu praktycznych aplika- 17

18 cjach, estymacja parametru dla naiwnych modeli Bayesa używa metody maksymalnego prawdopodobieństwa a posteriori; inaczej mówiąc, można pracować z naiwnym modelem Bayesa bez wierzenia w twierdzenie Bayesa albo używania jakichś metod Bayesa. Pomimo ich naiwnego projektowania i bardzo uproszczonych założeń, naiwne klasyfikatory Bayesa często pracują dużo lepiej w wielu rzeczywistych sytuacjach niż można było tego oczekiwać. Model prawdopodobieństwa dla klasyfikatora jest modelem warunkowym przez zmienną zależną klasy C z niewielu rezultatów albo klas, zależnych od kilku opisujących zmiennych F 1 do F n. Problem pojawia się, gdy liczba cech n jest duża lub gdy cecha może przyjmować dużą liczbę wartości. Wtedy opieranie się na modelu tablic prawdopodobieństw jest niewykonalne. Dlatego też inaczej formułuje się taki model, by był bardziej przystępny. Korzystając z twierdzenia Bayesa: W praktyce interesujący jest tylko licznik ułamka, bo mianownik nie zależy od C i wartości cechy. Mianownik jest więc stały. Licznik ułamka jest równoważny do łącznego modelu prawdopodobieństwa który można zapisać, wykorzystując prawdopodobieństwo warunkowe i tak dalej. Włącza się teraz naiwną warunkową zależność. Zakładając, że każda cecha F i jest warunkowo niezależna od każdej innej cechy F j dla 18

19 Oznacza to więc model można wyrazić jako Oznacza to, że pod powyższymi niezależnymi założeniami, warunkowe rozmieszczenie nad klasą zmiennych C można zapisać gdzie Z jest współczynnikiem skalowania zależnym wyłącznie od. Modele tej formy są łatwiejsze do zrealizowania, gdy rozłoży się je na czynniki zwane klasą prior p(c) i niezależny rozkład prawdopodobieństwa. Jeśli są klasy k i jeśli model dla p(f i) może być wyrażony przez parametr r, wtedy odpowiadający naiwny model Bayesa ma (k 1) + n r k parametrów. W praktyce często k 2 (klasyfikacja binarna) i r 1 (zmienna Bernouliego jako cecha), wtedy całkowita liczba parametrów naiwnego modelu Bayesa to 2n + 1, gdzie n jest liczbą binarnych użytych cech. W przypadku uczenia z nadzorem, chcemy ocenić parametry probabilistycznego modelu. Z powodu niezależnych cech założenia, wystarczy ocenić klasę poprzednią i zależną cechę modelu niezależnie, wykorzystując metodę maksimum prawdopodobieństwa a posteriori (MAP), wnioskowanie Bayesa lub inną parametryczną procedurę estymacji. Dotychczasowe omówienie problemu wyprowadziło model niezależnych cech, które są naiwnym probabilistycznym modelem Bayesa. Naiwny klasyfikator bayesowski łączy ten model z regułą decyzyjną. Jedna, ogólna reguła ma wydobyć hipotezę najbardziej prawdopodobną. Odpowiadający klasyfikator jest funkcją classify, zdefiniowaną 19

20 2.3 NARZĘDZIA REDUKCJI WYMIAROWOŚCI PCA Wielowymiarowe dane z reguły nie są równomiernie rozrzucone wzdłuż wszystkich kierunków układu współrzędnych, ale koncentrują się w pewnych podprzestrzeniach oryginalnej przestrzeni. Celem analizy składowych głównych (ang. Principal Component Analysis, PCA) jest znalezienie tych podprzestrzeni w postaci tzw. składników głównych (zwanych czasami kierunkami). Są to wektory, które pełnią rolę nowych współrzędnych analizowanych danych wielowymiarowych. Składników głównych jest zdefiniowanych tyle, ile wymiarów pierwotnych danych. Analiza składowych głównych oparta jest na wykorzystaniu podstawowych w statystyce pojęć, jakimi są m.in. korelacja i wariancja. Pojęcia te wraz z wybranymi elementami algebry liniowej tworzą matematyczną całość służącą do analizy danych wielowymiarowych. Pojęcia powyższe nie będą dokładniej omawiane w pracy (praktycznie każdy podręcznik statystyki je wyjaśnia), niemniej wiele z nich pojawi się niejako samoistnie w przykładach. W literaturze statystycznej metoda PCA klasyfikowana jest jako eksploracyjna analizy danych. Składnikami głównymi okazują się być (stosunkowo łatwe do wyliczenia) wektory własne tzw. macierzy kowariancji zbioru danych. Z wektorami własnymi związane są odpowiadające im wartości własne, które są (dla macierzy kowariancji) dodatnimi liczbami rzeczywistymi. Wybierając wektory odpowiadające kilku największym wartościom własnym, otrzymujemy poszukiwany zbiór nowych kierunków układu współrzędnych. Kierunki te (co jest istotą metody) są kierunkami maksymalizującymi zmienność danych w sensie wariancji. Kierunki te są ze sobą nieskorelowane (używa się też algebraicznego pojęcia ortogonalne). Przyjmuje się oczywiście, że wszystkie atrybuty pierwotnego zbioru danych opisują 100% zmienności tych danych. Analiza składowych głównych jest metodą liniową. W metodzie zakłada się możliwość znalezienia nowych osi (kierunków), które lepiej opisują nasze dane na przykład w sensie ich logicznego pogrupowania (ang. clustering). Osie te są oczywiście liniami prostymi. Zdarzyć się jednak może, że układ analizowanych danych jest taki, że nie będzie możliwa sensowna redukcja danych do ich rzutów na wyliczone kierunki. Redukcja wymiaru oryginalnych danych wymagać będzie wtedy ich zrzutowania na krzywą, a nie na prostą. W takim przypadku zastosować można uogólnienia klasycznej metody PCA jakimi są np. tzw. jądrowa metoda PCA (ang. kernel PCA, 20

21 kpca) lub nieliniowa analiza PCA (ang. Non-linear PCA, npca). Temat ten nie będzie jednak w tym miejscu rozwijany i poprzestajemy jedynie na wspomnieniu o tej możliwości MDS Skalowanie wielowymiarowe (ang. Multidimensional Scaling, MDS) to metoda wizualizacji danych w niskim wymiarze oparta na wykorzystaniu tzw. macierzy bliskości (ang. proximity matrix) oraz jakiejś odpowiedniej do analizowanych danych metryki (miary odległości). Jest to podstawowa metoda, mająca jednak wiele modyfikacji. Skalowanie wielowymiarowe dąży do rozmieszczenia obiektów jako punktów w przestrzeni niskowymiarowej w taki sposób, aby obiekty podobne do siebie (w oryginalnym zbiorze danych) znajdowały się blisko siebie. Redukujemy więc oryginalny rozmiar danych z zachowaniem zarówno ich własności topologicznych jak i metrycznych. Skalowanie wielowymiarowe wymaga posiadania informacji o bliskościach pomiędzy elementami zbioru danych. Stosowane do tego celu struktury danych to np. macierze podobieństwa, odmienności, odległości pomiędzy obiektami. W niektórych zastosowaniach informacja taka jest naturalna (np. porównanie przez respondentów jakości dwóch produktów). W innych macierz bliskości należy najpierw wyliczyć i nie zawsze będzie to proste zadanie. Zauważmy, że o np. odmienności możemy mówić również w kontekście danych nie tylko ilościowych ale i jakościowych. Wizualizacja metodami MDS może dotyczyć również danych mieszanych, które w postaci oryginalnej nie maja żadnej czytelnej interpretacji geometrycznej (jak na wykresie pokazać bliskość osób o różnych kolorach oczu?). W sensie obliczeniowym skalowanie wielowymiarowe jest nie tyle ścisłą procedurą, ile raczej sposobem zmiany rozmieszczenia obiektów w sposób na tyle efektywny, aby otrzymać konfigurację, która jest najlepszym przybliżeniem oryginalnych (czasami mówi się obserwowanych) odległości. Metoda przemieszcza obiekty w przestrzeni zdefiniowanej przez pożądaną liczbę wymiarów i sprawdza, na ile ta nowa konfiguracja odtwarza odległości między obiektami. Matematycznie chodzi o minimalizację pewnej funkcji, która jest miarą jakości rozwiązania zadania. Oznaczmy przez N ij odległość pomiędzy i-tym i j-tym obiektem w oryginalnej przestrzeni wielowymiarowej. Analogicznie przez n ij oznaczmy odległość pomiędzy i-tym i j-tym obiektem w przestrzeni o zredukowanej ilości wymiarów (w praktyce chodzi o płaszczyznę). MDS sprowadza się teraz do minimalizacji tzw. funkcji błędu (w literaturze anglojęzycznej zwanej stress function): 21

22 która jest miarą stosowaną do szacowania, na ile dobrze (lub źle) dana konfiguracja odtwarza macierz odległości MACIERZ KORELACJI Dla wszystkich cech budujemy macierz korelacji. Następnie z macierzy tej wybieramy te cechy, których wartość korelacji jest najwyższa względem klasy danego obiektu. Te cechy umieszczane są w macierzy wynikowej i na tych następnie przeprowadzane są obliczenia. Pozostałe cechy są pomijane. 22

23 3. SCHEMAT BADAŃ Wszystkie badania i symulacje zostały przeprowadzone w środowisku KNIME (Konstantz Information Miner). Cechą tego środowiska jest możliwość korzystania z gotowych bloczków do generowania modeli przepływu danych (ang. workflow). Podstawowy schemat przepływu dla naszych badań przedstawia się następująco: Rys. 3.1 Schemat przepływu danych dla klasyfikacji wykorzystującej dane numeryczne. 23

24 Rys. 3.2 Schemat przepływu dla klasyfikatorów wymagających danych nominalnych Środowisko to umożliwia również bardzo wygodne uczenie klasyfikatorów z wykorzystaniem walidacji skrośnej (ang. cross-validation), czyli podziału zbioru danych wejściowych na n koszyków, uczeniu klasyfikatora na n-1 koszykach i testowaniu na n-tym koszyku. Do tego służy tzw. bloczek złożony (ang. complex node). Rys. 3.3 Schemat organizacji uczenia z walidacją skrośną 24

25 Wyniki uzyskiwane są z węzła X-Aggregator. Jedno z jego wyjść przedstawia tabelaryczne zestawienie wszystkich cech i przypisanej klasy, natomiast drugie zawiera jedynie skuteczność działania klasyfikatora. Schemat prezentowanych danych z drugiego węzła przedstawia się następująco: Rys. 3.4, Format prezentacji wyników w środowisku KNIME Skuteczność działania klasyfikatora była oceniana dwojako. Jeżeli pracowaliśmy na klasyfikatorach, które wymagały danych nominalnych, na wyjściu otrzymywaliśmy procentowy stosunek ilości elementów błędnie zaklasyfikowanych do wszystkich elementów danego podzbioru. Wówczas skuteczność jest po prostu różnicą 100%-X, gdzie X to ów stosunek. Dla danych numerycznych otrzymywaliśmy całkowity błąd dla danego koszka (ang. fold) oraz błąd średniokwadratowy. Właśnie MSE (ang. mean squared error) traktowaliśmy jako nasz miernik skuteczności, obliczanej jako 100%-MSE*100%. MSE jest wyliczane jako TMSE (ang. total mean squared error) / size of fold (liczność koszyka). 25

26 4. WYNIKI BADAŃ Opis użytych skrótów: BARE dane gołe, nie poddane procesowi redukcji wymiarowości RED dane poddane procesowi redukcji na podstawie macierzy korelacji PCA dane poddane procesowi redukcji na podstawie algorytmu PCA MDS dane poddane procesowi redukcji na podstawie algorytmu MDS Perceptron wielowarstwowy (ang. Multi-layer perceptron MLP) MLP - BARE MLP - RED MLP - PCA MLP MDS TMSE MSER TMSE MSER TMSE MSER TMSE MSER Fold0 0,631 0,018 0,83 0,02 1,183 0,033 0,844 0,023 Fold1 0,825 0,024 1,36 0,04 1,146 0,033 1,112 0,032 Fold2 0,563 0,016 1,20 0,03 0,895 0,026 1,158 0,033 Fold3 0,675 0,019 0,66 0,02 1,204 0,034 0,832 0,024 Fold4 1,025 0,029 1,22 0,03 1,086 0,031 0,727 0,021 Fold5 0,854 0,024 0,25 0,01 1,129 0,031 1,076 0,030 Fold6 1,084 0,031 1,00 0,03 1,020 0,029 1,220 0,035 Fold7 0,394 0,011 1,23 0,03 1,181 0,034 0,697 0,020 Fold8 1,206 0,034 1,06 0,03 0,983 0,028 0,983 0,028 Fold9 0,907 0,026 0,64 0,02 1,235 0,035 1,205 0,034 Średnia 0,817 0,023 0,94 0,03 1,106 0,031 0,985 0,028 Skuteczność [%] 99, , , , , ,5 BARE RED PCA MDS Rys. 4.1, Skuteczność klasyfikacji perceptronu wielowarstwowego w poszczególnych kubełkach walidacji skrośnej, z uwzględnieniem różnych metod redukcji cech Na podstawie zanotowanych wyników można zauważyć, że klasyfikator oparty na wielowarstwowej sieci neuronowej (perceptronie), choć stosunkowo prosty, radzi sobie zaskakująco do- 26

27 brze. Właściwie nie ma dla tej sieci neuronowej znaczenia, czy pracuje ona na cechach tzw. gołych, czy zredukowanych. Oczywiście im mniej cech, tym mniej obliczeń perceptron musi wykonać, aby się wyuczyć, a potem testować, ale przy pozostawieniu oryginalnych 464 cech klasyfikacja i tak odbywała się na tyle szybko, że brak redukcji wymiarowości cech nie okazał się zauważalnie istotny. Uzyskiwane wyniki skuteczności klasyfikacji z przedziału 95-99% są więcej niż zadowalające. Probabilistyczna sieć neuronowa (ang. Probabilistic neural network PNN) PNN BARE PNN - RED PNN - PCA PNN MDS TMSE MSER TMSE MSER TMSE MSER TMSE MSER Fold0 3,742 0,104 6,00 0,16 2,449 0,068 2,449 0,068 Fold1 2,449 0,070 19,00 0,53 2,828 0,081 2,828 0,081 Fold2 3,317 0,095 20,00 0,56 2,236 0,064 3,742 0,107 Fold3 2,828 0,081 13,00 0,36 2,828 0,081 2,449 0,070 Fold4 2,646 0,076 22,00 0,61 2,449 0,070 1,732 0,049 Fold5 2,236 0,062 11,00 0,31 1,732 0,048 2,828 0,079 Fold6 2,646 0,076 12,00 0,33 4,243 0,121 3,317 0,095 Fold7 2,449 0,070 21,00 0,58 3,317 0,095 2,646 0,076 Fold8 2,000 0,057 31,00 0,86 2,236 0,064 2,236 0,064 Fold9 2,236 0,064 9,00 0,25 2,236 0,064 2,646 0,076 Średnia 2,655 0,075 16,40 0,46 2,656 0,076 2,687 0,076 Skuteczność [%] BARE RED PCA MDS Rys. 4.2, Skuteczność klasyfikacji probabilistycznej sieci neuronowej w poszczególnych kubełkach walidacji skrośnej, z uwzględnieniem różnych metod redukcji cech W przypadku probabilistycznej sieci neuronowej tym, co wyraźnie rzuca się w oczy jest silna zależność jej skuteczności od rodzaju zastosowanego algorytmu redukcji wymiarowości cech. Uściślając, klasyfikator ten nie potrafił skutecznie poradzić sobie z zadanym problemem przy 27

28 użyciu redukcji opartej na macierzy korelacji. Może to oznaczać, że ta sieć działa dobrze na danych nieskorelowanych (niezależnych). Pozostałe algorytmy redukcji wymiarowości (wliczając również zupełny brak jego zastosowania) nie rzutowały tak na otrzymane wyniki. Oczywiście zastosowanie redukcji wymiarowości zwiększa czas potrzebny na przygotowanie danych na wejście do klasyfikatora, ale potem skraca czas jego uczenia. Koniec końców jednak, różnice czasowe w obu podejściach okazują się minimalne. Radialna sieć neuronowa (ang. Radial Neural Network RNN) RNN - BARE RNN - RED RNN - PCA RNN MDS E [%] EC E [%] EC E [%] EC E [%] EC Fold0 16,22 6/37 10,81 4/37 2,70 1/37 0,00 0/36 Fold1 19,44 7/36 11,11 4/36 2,78 1/36 0,00 0/36 Fold2 2,78 1/36 8,33 3/36 0,00 0/36 0,00 0/36 Fold3 11,11 4/36 11,11 4/36 0,00 0/36 0,00 0/36 Fold4 8,33 3/36 19,44 7/36 0,00 0/36 0,00 0/36 Fold5 2,78 1/36 16,67 6/36 0,00 0/36 0,00 0/36 Fold6 11,11 4/36 13,89 5/36 0,00 0/36 0,00 0/36 Fold7 5,56 2/36 2,78 1/36 0,00 0/36 0,00 0/36 Fold8 16,67 6/36 13,89 5/36 0,00 0/36 0,00 0/36 Fold9 16,67 6/36 16,67 6/36 0,00 0/36 0,00 0/36 Średnia 16,22 12,47 0,55 0,00 Skuteczość [%] BARE RED PCA MDS Rys. 4.3, Skuteczność klasyfikacji radialnej sieci neuronowej w poszczególnych kubełkach walidacji skrośnej, z uwzględnieniem różnych metod redukcji cech To, co najbardziej zastanawia i jednocześnie zaskakuje w wynikach uzyskanych przy użyciu sieci radialnej, to bezbłędna skuteczność klasyfikacji dla sieci pracującej na danych, których wymiary zostały zredukowane algorytmem MDS. Nakład czasowy potrzebny na zrealizowanie symulacji 28

29 takiej kombinacji jest nieco większy, niż przy prostszych klasyfikatorach i algorytmach redukcji, ale otrzymane wyniki rekompensują ubytki szybkościowe. Równie nieźle klasyfikator ten poradził sobie z klasyfikacją danych poddanych procesowi redukcji wymiarowości za pomocą algorytmu PCA. Redukcja oparta na macierzy korelacji, a także nawet jej brak również pozwalają na uzyskanie za pomocą tego rodzaju sieci neuronowej satysfakcjonujących wyników (powyżej 80% poprawności klasyfikacji). Klasyfikator SOTA SOTA RED SOTA - PCA SOTA MDS E [%] EC E [%] EC E [%] EC Fold0 27,40 20/71 22,54 16/71 14,08 10/71 Fold1 26,39 19/70 18,57 13/70 25,71 18/70 Fold2 33,33 24/71 28,17 20/71 15,49 11/71 Fold3 23,61 17/70 18,57 13/70 18,57 13/70 Fold4 26,39 19/70 20,00 14/70 25,71 18/70 Średnia 27,42 21,57 14, Skuteczność [%] RED PCA MDS Fold0 Fold1 Fold2 Fold3 Fold4 Średnia Rys. 4.4, Skuteczność algorytmu drzewa samoorganizującej się mapy (SOTA) w poszczególnych kubełkach walidacji skrośnej, z uwzględnieniem różnych metod redukcji cech Uruchamiając klasyfikator typu SOTA (ang. Self Organizing Tree Algorithm) mieliśmy po nim bardzo duże oczekiwania, wprost proporcjonalne do czasu, jakiego klasyfikator wymaga do wyuczenia się. Tymczasem okazuje się, że za długim procesem uczenia nie idzie wysoka skuteczność klasyfikacji. Błąd na poziomie dwudziestu kilku procent jest nieakceptowalny, jeśli spojrzymy na wyniki uzyskiwane za pomocą innych klasyfikatorów. Uruchomienie tego klasyfikatora na danych niezredukowanych zakończyło się nawet błędem braku dostępnej pamięci. Być może dla mniejszej ilości cech, ten klasyfikator radziłby sobie lepiej, co można zaobserwować po 29

30 użyciu go na danych zredukowanych algorytmem MDS, ale taka kombinacja (MDS + SOTA) jest bardzo czasochłonna. Regresja liniowa (REGL) REGL RED REGL - PCA REGL MDS TMSE MSER TMSE MSER TMSE MSER Fold0 7,15 0,19 3,93 0,11 4,72 0,13 Fold1 7,07 0,20 14,37 0,40 5,22 0,15 Fold2 11,20 0,31 6,77 0,19 5,08 0,15 Fold3 10,96 0,30 3,07 0,09 5,62 0,16 Fold4 8,12 0,23 11,70 0,33 5,97 0,17 Fold5 20,53 0,57 8,75 0,24 6,49 0,18 Fold6 19,72 0,55 6,56 0,18 5,40 0,15 Fold7 3,52 0,10 11,23 0,31 4,78 0,14 Fold8 4,00 0,11 27,36 0,76 5,40 0,15 Fold9 7,30 0,20 6,39 0,18 4,54 0,13 Średnia 9,96 0,28 10,01 0,28 5,32 0, Skuteczność [%] RED PCA MDS Rys. 4.5, Skuteczność regresji liniowej w poszczególnych kubełkach walidacji skrośnej, z uwzględnieniem różnych metod redukcji cech Uruchomienie regresji liniowej na naszych danych niezredukowanych jest z założenia niemożliwe, ponieważ ten typ klasyfikatora (predyktora) wymaga, aby elementów w zbiorze uczącym było więcej, niż cech każdego z elementów. Tymczasem błąd średniokwadratowy okazał się zniechęcająco wysoki dla regresji uruchomionej na danych redukowanych przy użyciu macierzy korelacji oraz algorytmu PCA, co każe widzieć w metodzie regresji raczej przeciętny klasyfikator (ze skutecznością rzędu ok. 72%). 30

31 Regresja wielomianowa (REGW) REGW - PCA REGW MDS TMSE MSER TMSE MSER Fold0 37,72 0,92 8,05 0,22 Fold1 15,96 0,44 2,60 0,07 Fold2 23,41 0,65 5,93 0,17 Fold3 34,81 0,97 3,52 0,10 Fold4 30,24 0,84 5,99 0,17 Fold5 16,89 0,47 2,81 0,08 Fold6 35,58 0,99 5,82 0,17 Fold7 36,31 0,91 5,62 0,16 Fold8 25,92 0,72 4,78 0,14 Fold9 18,98 0,53 8,93 0,26 Średnia 27,58 0,76 5,40 0,15 Skuteczność [%] PCA MDS Rys. 4.6, Skuteczność regresji wielomianowej w poszczególnych kubełkach walidacji skrośnej, z uwzględnieniem różnych metod redukcji cech Zastanawiająca jest bardzo niska skuteczność działania klasyfikatora opartego na regresji wielomianowej na wektorze cech zredukowanym algorytmem PCA. Średnia skuteczność oscyluje w granicach 25%, co daje tak naprawdę wynik równy losowemu przydziałowi obrazka do klasy (ponieważ mamy ich cztery). Z kolei wykorzystanie tego samego klasyfikatora, ale na danych poddanych procesowi redukcji wymiarowości algorytmem MDS, daje dużo bardziej satysfakcjonujące rezultaty. Skuteczność na poziomie około 80 i więcej procent może zadowalać. Podobnie jednak, jak w przypadku innych symulacji, musimy pamiętać, że transformacja przy użyciu MDS jest dużo bardziej kosztowna czasowo, niż użycie PCA. 31

32 Naiwny Bayes (NBAY) NBAY - BARE NBAY - RED NBAY - PCA NBAY MDS E [%] EC E [%] EC E [%] EC E [%] EC Fold0 59,46 22/37 0,00 0/37 29,73 11/37 0,00 0/37 Fold1 58,33 21/36 5,56 2/36 52,78 19/36 8,57 3/36 Fold2 50,00 18/36 0,00 0/36 41,67 15/36 0,00 0/36 Fold3 61,11 22/36 2,78 1/36 36,11 13/36 0,00 0/36 Fold4 50,00 18/36 2,78 1/36 30,56 11/36 0,00 0/36 Fold5 38,89 14/36 2,78 1/36 22,22 8/36 0,00 0/36 Fold6 47,22 17/36 0,00 0/36 25,00 9/36 0,00 0/36 Fold7 33,33 12/36 0,00 0/36 30,56 11/36 5,71 2/36 Fold8 52,78 19/36 2,78 1/36 30,56 11/36 2,86 1/36 Fold9 50,00 18/36 2,78 1/36 27,78 10/36 0,00 0/36 Średnia 50,11 1,94 32,70 1, Skuteczność [%] BARE RED PCA MDS 40 Rys. 4.7, Skuteczność regresji wielomianowej w poszczególnych kubełkach walidacji skrośnej, z uwzględnieniem różnych metod redukcji cech Zachowanie naiwnego klasyfikatora bayesowskiego jest bardzo ciekawe. Otóż dla danych niezredukowanych otrzymujemy skuteczność rzędu 50%, co nas absolutnie nie może zadowalać (jest bowiem bliska losowemu przydziałowi obrazka do klasy). Dla redukcji cech opartej na algorytmie PCA skuteczność jest już nieco lepsza (ok 67%). Tymczasem dla danych poddanych redukcji w oparciu o macierz korelacji (czyli pozostawieniu tylko tych cech, które są najmocniej skorelowane z wartością klasy), klasyfikator ociera się o perfekcję, notując skuteczność na poziomie 98%. 32

33 5. ANALIZA UZYSKANYCH WYNIKÓW 5.1 ANALIZA PORÓWNAWCZA KLASYFIKATORÓW Zestawienie podsumowujące rezultatów BARE RED PCA MDS MLP 97,70 97,00 96,90 97,20 PNN 92,50 54,00 92,40 92,40 RNN 83,78 87,53 99,45 100,0 SOTA Brak danych 72,58 78,43 85,92 REGL Brak danych 72,00 72,00 85,00 Brak Brak REGW danych danych 24,00 85,00 NBAY 49,89 98,06 67,30 98,29 Skuteczność [%] BARE RED PCA MDS 20 MLP PNN RNN SOTA REGL REGW NBAY Rys. 4.8 Średnia skuteczność poszczególnych klasyfikatorów w zależności od wybranej metody redukcji cech Perceptron wielowarstwowy jest klasyfikatorem najbardziej nieczułym na ilość atrybutów klasyfikowanego obiektu. Dobrze sobie radzi zarówno przy danych nie poddanych procesowi redukcji wymiarowości, jak również po zastosowaniu różnych, mniej lub bardziej skutecznych (i 33

34 skomplikowanych zarazem) algorytmów. Wadą stosowania perceptronu jest jednak jego nie determinizm i brak kontroli nad procesem uczenia, a także długi czas potrzebny na wyuczenie. Probabilistyczna sieć neuronowa zachowuje się podobnie do tradycyjnego perceptronu wielowarstwowego z wyjątkiem reakcji na dane poddane procesowi redukcji za pomocą macierzy korelacji. Zastosowanie tej metody znacznie obniżyło skuteczność klasyfikatora i tym samym odrzuciło, w naszych oczach, możliwość stosowania takiej kombinacji. Dla pozostałych metod redukcji wymiarów (w szczególności dla braku żadnej), klasyfikator radzi sobie podobnie dobrze. Radialna sieć neuronowa to klasyfikator, który okazał się bardzo czuły na ilość atrybutów opisujących klasyfikowany obiekt, ale też dał on najlepsze wyniki. Brak redukcji wymiarów pozwala na uzyskanie za pomocą tego klasyfikatora poprawności klasyfikacji na poziomie nieco przekraczającym 80% (podobnie jak zastosowanie macierzy korelacji), ale już użycie bardziej skomplikowanych algorytmów, takich jak MDS czy PCA pozwala uzyskać skuteczność niemal zbliżoną lub nawet równą bezbłędnej klasyfikacji. Wysoka skuteczność odbywa się niestety kosztem dużych nakładów czasowych. Algorytm SOTA, mimo zniechęcających czasów potrzebnych na wyuczenie klasyfikatora, nie dał bardzo zadowalających wyników. Co więcej, nie poradził on sobie zupełnie z danymi niezredukowanymi, wyczerpując zasoby mocy obliczeniowej komputera, na którym przeprowadzane były eksperymenty. Dla użytych metod redukcji udało się, co prawda, testy przeprowadzić, ale wyniki, jak już wspominaliśmy, nie powalają na kolana klasyfikator ten okazał się gorszy od wszystkich rodzajów sieci neuronowych, a także, w szczególnych przypadkach, nawet od naiwnego klasyfikatora bayesowskiego. Regresja liniowa nie mogła zostać użyta do badania skuteczności klasyfikacji danych niezredukowanych, ponieważ wówczas liczba atrybutów przekraczała liczbę obiektów (co sprawia, że niespełnione zostaje założenie dotyczące wykorzystania tego typu klasyfikatora). Przy użyciu metod redukcji wymiarów, klasyfikator ten dał pewne wyniki, ale też nie są one rewelacyjne. Zaletą stosowania jednak tego rodzaju klasyfikatora jest brak konieczności dyskretyzowania wcześniej zmiennych ciągłych (numerycznych). Bardzo niska skuteczność regresji wielomianowej przy zastosowaniu algorytmu PCA może zaskakiwać i jednocześnie zastanawiać. Nie udało nam się odkryć przyczyny takiego stanu rzeczy. Tymczasem dla danych przetworzonych algorytmem MDS rezultaty klasyfikacji regresją wielomianową okazały się znacznie bardziej przystępne i sięgające blisko 85%. Regresja wielomia- 34

35 nowa pozostawia jeszcze pole do popisu dostrajania tego klasyfikatora, przez badanie zależności skuteczności działania od stopnia wielomianu. Chociaż prostota naiwnego klasyfikatora bayesowskiego nie dawała perspektyw na uzyskanie dobrych wyników klasyfikacji, w szczególnych przypadkach klasyfikator ten radzi sobie nadzwyczaj dobrze. Tak było przy zastosowaniu redukcji cech za pomocą macierzy korelacji. Jest to jednak pewne nadużycie dogmatu niezależności zmiennych (atrybutów)- kluczowej cechy tego klasyfikatora. Z drugiej jednak strony, zastosowanie algorytmu MDS również pozwoliło na uzyskanie bardzo zadowalających wyników (znacznie powyżej 90%) ANALIZA PORÓWNAWCZA METOD REDUKCJI WYMIAROWOŚCI CECH Brak jakiejkolwiek eliminacji cech okazał się niekorzystny jedynie dla naiwnego klasyfikatora bayesowskiego. W przypadku obu klasyfikatorów opartych na regresji brak eliminacji nie pozwolił w ogóle na uruchomienie klasyfikatora, natomiast dla algorytmu SOTA jego realizacja (proces uczenia) spowodowała wyczerpanie zasobów obliczeniowych. Dla klasyfikatorów opartych na sieciach neuronowych fakt, czy dane zostaną poddane procesowi eliminacji wymiarów nie ma tak naprawdę większego znaczenia. Redukcja wymiarowości za pomocą macierzy korelacji w żadnym z przypadków nie okazała się metodą najlepszą (bliskość ideału w przypadku naiwnego klasyfikatora bayesowskiego została okupiona pewnym ideowym przymrużeniem oka działania klasyfikatora). W szczególnym przypadku (probabilistyczna sieć neuronowa) zastosowanie tej metody redukcji wymiarów spowodowało znaczne pogorszenie otrzymywanych rezultatów. Algorytm PCA wydaje się rozsądnym kompromisem pomiędzy niezadowalającą skutecznością macierzy korelacji, a długim czasem realizacji algorytmu MDS. Wyniki uzyskane przy użyciu tego algorytmu są zazwyczaj nieznacznie tylko gorsze od tych otrzymywanych po redukcji wymiarowości z wykorzystaniem MDS, ale czas realizacji symulacji jest znacznie krótszy. Algorytm MDS radzi sobie zdecydowanie najlepiej z redukcją danych (dla tych klasyfikatorów, dla których ma to naprawdę znaczenie, czyli nie dla sieci neuronowych), ale wymaga najwięcej cierpliwości od użytkownika, ponieważ trwa zdecydowanie najdłużej i zajmuje dużo mocy obliczeniowej (w skrajnych przypadkach potrafi ją zupełnie wyczerpać). 35

36 6. OBSERWACJE, SPOSTRZEŻENIA Istotną gałęzią problemów było umiejętne sprzężenie obrazów z wektorem cech oraz przypisaną do każdego z nich klasą. Obrazy były zapisywane w postaci plików TIF. Każdy z nich ma wymiary 2576 x 1932 pikseli, co sprawia, że przetworzenie każdego obrazu z osobna jest bardzo czasochłonne. Zwłaszcza, jeśli weźmiemy pod uwagę konieczność wielokrotnego przetwarzania całego obrazu celem uzyskania wszystkich wymaganych cech. Aby uzyskać pełen wektor 464 cech należało wygenerować macierz wartości natężenia koloru w skali HSV (składowa H hue). Następnie wielokrotnie tworzyliśmy nowe macierze współwystępowania, dla różnych wartości odległości pomiędzy elementami w macierzy oraz dla różnych badanych kierunków zależności. W ostatnim etapie tworzenia wektora cech generowaliśmy kilka macierzy długości pasm po jednej dla każdego badanego kierunku. Ponieważ do wygenerowania potrzebnych było dużo, niekoniecznie trywialnych w obliczeniu, cech, cały proces generowania wektora był bardzo czasochłonny. Przetworzenie jednego obrazka zajmowało około minuty, a ponieważ cały zbiór danych składał się z ok 360 obrazków, tworzenie wektora było zadaniem, do wykonania którego wymagany był komputer o dużej mocy obliczeniowej i wydajnym systemie chłodzenia. Ostatecznie do wygenerowania zbioru testowego wykorzystałem komputer o następujących parametrach: Procesor: Intel e8400 (2x3GHz) Pamięć: 4GB DDR3 System operacyjny: Windows 7 Format danych wejściowych wymuszał, aby każdy wektor cech zawierał jako pierwszy element numer klasy, do której dane zdjęcie jest zaklasyfikowane. Wymusiło to konieczność programistycznego sprzężenia obrazów z danymi dotyczącymi ich klas. Te dane otrzymałem w postaci zeskanowanego dokumentu w postaci tabelarycznej. Dokument ten należało poddać procesowi OCR i w oparciu o otrzymany wynik, sporządzić mapowania w postaci przyjaznej dla tej aplikacji. Ponieważ otrzymane wyniki były poszarpane (dla części obrazów dysponowaliśmy jedynie wartością HrTest, dla innych tylko wartością Ventana, a jeszcze dla innych tylko wynikiem FISH; do tego dochodziły też różne kombinacje tych wartości), wygodne okazało się podzielenie tego zbioru na mniejsze podzbiory, z których każdy zawierał tylko te elementy, z których wszystkie były opisane tymi samymi atrybutami (klasami). W ten sposób stworzyliśmy kilka plików o następujących strukturach: 36

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

Przykładowa analiza danych

Przykładowa analiza danych Przykładowa analiza danych W analizie wykorzystano dane pochodzące z publicznego repozytorium ArrayExpress udostępnionego na stronach Europejskiego Instytutu Bioinformatyki (http://www.ebi.ac.uk/). Zbiór

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego Dorota Witkowska Szkoła Główna Gospodarstwa Wiejskiego w Warszawie Wprowadzenie Sztuczne

Bardziej szczegółowo

Etapy modelowania ekonometrycznego

Etapy modelowania ekonometrycznego Etapy modelowania ekonometrycznego jest podstawowym narzędziem badawczym, jakim posługuje się ekonometria. Stanowi on matematyczno-statystyczną formę zapisu prawidłowości statystycznej w zakresie rozkładu,

Bardziej szczegółowo

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących Cezary Dendek Wydział Matematyki i Nauk Informacyjnych PW Plan prezentacji Plan prezentacji Wprowadzenie

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

KADD Metoda najmniejszych kwadratów funkcje nieliniowe Metoda najmn. kwadr. - funkcje nieliniowe Metoda najmniejszych kwadratów Funkcje nieliniowe Procedura z redukcją kroku iteracji Przykłady zastosowań Dopasowanie funkcji wykładniczej Dopasowanie funkcji

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

SIECI RBF (RADIAL BASIS FUNCTIONS)

SIECI RBF (RADIAL BASIS FUNCTIONS) SIECI RBF (RADIAL BASIS FUNCTIONS) Wybrane slajdy z prezentacji prof. Tadeusiewicza Wykład Andrzeja Burdy S. Osowski, Sieci Neuronowe w ujęciu algorytmicznym, Rozdz. 5, PWNT, Warszawa 1996. opr. P.Lula,

Bardziej szczegółowo

Statystyka i Analiza Danych

Statystyka i Analiza Danych Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki -

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela

Statystyka w pracy badawczej nauczyciela Statystyka w pracy badawczej nauczyciela Wykład 1: Terminologia badań statystycznych dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka (1) Statystyka to nauka zajmująca się zbieraniem, badaniem

Bardziej szczegółowo

Algorytmy genetyczne w interpolacji wielomianowej

Algorytmy genetyczne w interpolacji wielomianowej Algorytmy genetyczne w interpolacji wielomianowej (seminarium robocze) Seminarium Metod Inteligencji Obliczeniowej Warszawa 22 II 2006 mgr inż. Marcin Borkowski Plan: Przypomnienie algorytmu niszowego

Bardziej szczegółowo

Klasyfikacja metodą Bayesa

Klasyfikacja metodą Bayesa Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo

Bardziej szczegółowo

Co to jest analiza regresji?

Co to jest analiza regresji? Co to jest analiza regresji? Celem analizy regresji jest badanie związków pomiędzy wieloma zmiennymi niezależnymi (objaśniającymi) a zmienną zależną (objaśnianą), która musi mieć charakter liczbowy. W

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

Transformacja wiedzy w budowie i eksploatacji maszyn

Transformacja wiedzy w budowie i eksploatacji maszyn Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Wykład 3 Liniowe metody klasyfikacji. Wprowadzenie do klasyfikacji pod nadzorem. Fisherowska dyskryminacja liniowa. Wprowadzenie do klasyfikacji pod nadzorem. Klasyfikacja pod nadzorem Klasyfikacja jest

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

MATeMAtyka 3. Propozycja przedmiotowego systemu oceniania wraz z określeniem wymagań edukacyjnych. Zakres podstawowy i rozszerzony

MATeMAtyka 3. Propozycja przedmiotowego systemu oceniania wraz z określeniem wymagań edukacyjnych. Zakres podstawowy i rozszerzony Agnieszka Kamińska, Dorota Ponczek MATeMAtyka 3 Propozycja przedmiotowego systemu oceniania wraz z określeniem wymagań edukacyjnych Zakres podstawowy i rozszerzony Wyróżnione zostały następujące wymagania

Bardziej szczegółowo

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW ODRZUCANIE WYNIKÓW OJEDYNCZYCH OMIARÓW W praktyce pomiarowej zdarzają się sytuacje gdy jeden z pomiarów odstaje od pozostałych. Jeżeli wykorzystamy fakt, że wyniki pomiarów są zmienną losową opisywaną

Bardziej szczegółowo

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej 7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach

Bardziej szczegółowo

Rozkłady zmiennych losowych

Rozkłady zmiennych losowych Rozkłady zmiennych losowych Wprowadzenie Badamy pewną zbiorowość czyli populację pod względem występowania jakiejś cechy. Pobieramy próbę i na podstawie tej próby wyznaczamy pewne charakterystyki. Jeśli

Bardziej szczegółowo

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem

Bardziej szczegółowo

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Anna Manerowska, Michal Kozakiewicz 2.12.2009 1 Wstęp Jako projekt na przedmiot MEUM (Metody Ewolucyjne Uczenia Maszyn)

Bardziej szczegółowo

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Wymagania edukacyjne niezbędne do uzyskania poszczególnych ocen śródrocznych i rocznych ocen klasyfikacyjnych z matematyki klasa 1 gimnazjum

Wymagania edukacyjne niezbędne do uzyskania poszczególnych ocen śródrocznych i rocznych ocen klasyfikacyjnych z matematyki klasa 1 gimnazjum edukacyjne niezbędne do uzyskania poszczególnych ocen śródrocznych i rocznych ocen klasyfikacyjnych z matematyki klasa 1 gimnazjum Semestr I Stopień Rozdział 1. Liczby Zamienia liczby dziesiętne na ułamki

Bardziej szczegółowo

SPIS TREŚCI WSTĘP... 8 1. LICZBY RZECZYWISTE 2. WYRAŻENIA ALGEBRAICZNE 3. RÓWNANIA I NIERÓWNOŚCI

SPIS TREŚCI WSTĘP... 8 1. LICZBY RZECZYWISTE 2. WYRAŻENIA ALGEBRAICZNE 3. RÓWNANIA I NIERÓWNOŚCI SPIS TREŚCI WSTĘP.................................................................. 8 1. LICZBY RZECZYWISTE Teoria............................................................ 11 Rozgrzewka 1.....................................................

Bardziej szczegółowo

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007 Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja

Bardziej szczegółowo

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć: Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).

Bardziej szczegółowo

Sposoby prezentacji problemów w statystyce

Sposoby prezentacji problemów w statystyce S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki

Bardziej szczegółowo

Kryteria oceniania z matematyki w klasie pierwszej w roku szkolnym 2015/2016

Kryteria oceniania z matematyki w klasie pierwszej w roku szkolnym 2015/2016 Kryteria oceniania z matematyki w klasie pierwszej w roku szkolnym 2015/2016 1) Liczby - zamienia liczby dziesiętne skończone na ułamki zwykłe i liczby mieszane, - zapisuje ułamek zwykły w postaci ułamka

Bardziej szczegółowo

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować? Algorytm k-nn Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować? Jak daleko są położone obiekty od siebie? knn k nearest neighbours jest

Bardziej szczegółowo

Sieci neuronowe - dokumentacja projektu

Sieci neuronowe - dokumentacja projektu Sieci neuronowe - dokumentacja projektu Predykcja finansowa, modelowanie wskaźnika kursu spółki KGHM. Piotr Jakubas Artur Kosztyła Marcin Krzych Kraków 2009 1. Sieci neuronowe - dokumentacja projektu...

Bardziej szczegółowo

Analiza wariancji. dr Janusz Górczyński

Analiza wariancji. dr Janusz Górczyński Analiza wariancji dr Janusz Górczyński Wprowadzenie Powiedzmy, że badamy pewną populację π, w której cecha Y ma rozkład N o średniej m i odchyleniu standardowym σ. Powiedzmy dalej, że istnieje pewien czynnik

Bardziej szczegółowo

2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi. a. Wprowadzenie, aspekt psychologiczny, wady statystyki

2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi. a. Wprowadzenie, aspekt psychologiczny, wady statystyki 1. Wstęp 2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi a. Wprowadzenie, aspekt psychologiczny, wady statystyki b. Metody graficzne i. Wykres 1.zmiennej ii. Rzut na 2 współrzędne

Bardziej szczegółowo

Katalog wymagań programowych na poszczególne stopnie szkolne klasa 1

Katalog wymagań programowych na poszczególne stopnie szkolne klasa 1 Matematyka Liczy się matematyka Klasa klasa Rozdział. Liczby zamienia liczby dziesiętne skończone na ułamki zwykłe i liczby mieszane zapisuje ułamek zwykły w postaci ułamka dziesiętnego skończonego porównuje

Bardziej szczegółowo

Proces badawczy schemat i zasady realizacji

Proces badawczy schemat i zasady realizacji Proces badawczy schemat i zasady realizacji Agata Górny Zaoczne Studia Doktoranckie z Ekonomii Warszawa, 14 grudnia 2014 Metodologia i metoda badawcza Metodologia Zadania metodologii Metodologia nauka

Bardziej szczegółowo

Matematyka do liceów i techników Szczegółowy rozkład materiału Zakres podstawowy

Matematyka do liceów i techników Szczegółowy rozkład materiału Zakres podstawowy Matematyka do liceów i techników Szczegółowy rozkład materiału Zakres podstawowy Wariant nr (klasa I 4 godz., klasa II godz., klasa III godz.) Klasa I 7 tygodni 4 godziny = 48 godzin Lp. Tematyka zajęć

Bardziej szczegółowo

Sterowanie wielkością zamówienia w Excelu - cz. 3

Sterowanie wielkością zamówienia w Excelu - cz. 3 Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji

Bardziej szczegółowo

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna

Bardziej szczegółowo

WYMAGANIE EDUKACYJNE Z MATEMATYKI W KLASIE II GIMNAZJUM. dopuszczającą dostateczną dobrą bardzo dobrą celującą

WYMAGANIE EDUKACYJNE Z MATEMATYKI W KLASIE II GIMNAZJUM. dopuszczającą dostateczną dobrą bardzo dobrą celującą 1. Statystyka odczytać informacje z tabeli odczytać informacje z diagramu 2. Mnożenie i dzielenie potęg o tych samych podstawach 3. Mnożenie i dzielenie potęg o tych samych wykładnikach 4. Potęga o wykładniku

Bardziej szczegółowo

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania

Bardziej szczegółowo

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego IBS PAN, Warszawa 9 kwietnia 2008 Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego mgr inż. Marcin Jaruszewicz promotor: dr hab. inż. Jacek Mańdziuk,

Bardziej szczegółowo

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1 Zadanie 1 a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1 b) W naszym przypadku populacja są inżynierowie w Tajlandii. Czy można jednak przypuszczać, że na zarobki kobiet-inżynierów

Bardziej szczegółowo

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2) Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2) Ewa Wołoszko Praca pisana pod kierunkiem Pani dr hab. Małgorzaty Doman Plan tego wystąpienia Teoria Narzędzia

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie

Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie Zadanie Zbadano satysfakcję z życia w skali 1 do 10 w dwóch grupach rodziców: a) Rodzice dzieci zdrowych oraz b) Rodzice dzieci z niepełnosprawnością

Bardziej szczegółowo

ROZWIĄZYWANIE UKŁADÓW RÓWNAŃ NIELINIOWYCH PRZY POMOCY DODATKU SOLVER PROGRAMU MICROSOFT EXCEL. sin x2 (1)

ROZWIĄZYWANIE UKŁADÓW RÓWNAŃ NIELINIOWYCH PRZY POMOCY DODATKU SOLVER PROGRAMU MICROSOFT EXCEL. sin x2 (1) ROZWIĄZYWANIE UKŁADÓW RÓWNAŃ NIELINIOWYCH PRZY POMOCY DODATKU SOLVER PROGRAMU MICROSOFT EXCEL 1. Problem Rozważmy układ dwóch równań z dwiema niewiadomymi (x 1, x 2 ): 1 x1 sin x2 x2 cos x1 (1) Nie jest

Bardziej szczegółowo

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych Regresja logistyczna i jej zastosowanie Model regresji logistycznej jest budowany za pomocą klasy Logistic programu WEKA. Jako danych wejściowych

Bardziej szczegółowo

Poniżej przedstawiony został podział wymagań na poszczególne oceny szkolne:

Poniżej przedstawiony został podział wymagań na poszczególne oceny szkolne: Prosto do matury klasa d Rok szkolny 014/015 WYMAGANIA EDUKACYJNE Wyróżnione zostały następujące wymagania programowe: konieczne (K), podstawowe (P), rozszerzające (R), dopełniające (D) i wykraczające

Bardziej szczegółowo

Rozkład materiału nauczania

Rozkład materiału nauczania Dział/l.p. Ilość godz. Typ szkoły: TECHNIKUM Zawód: TECHNIK USŁUG FRYZJERSKICH Rok szkolny 2015/2016 Przedmiot: MATEMATYKA Klasa: III 2 godz/tyg 30 = 60 godzin Rozkład materiału nauczania Temat I. LOGARYTMY

Bardziej szczegółowo

Osiągnięcia ponadprzedmiotowe

Osiągnięcia ponadprzedmiotowe W rezultacie kształcenia matematycznego uczeń potrafi: Osiągnięcia ponadprzedmiotowe Umiejętności konieczne i podstawowe czytać teksty w stylu matematycznym wykorzystywać słownictwo wprowadzane przy okazji

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu dla odczytu Australia Employment Change

Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu dla odczytu Australia Employment Change Raport 4/2015 Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu dla odczytu Australia Employment Change autor: Michał Osmoła INIME Instytut nauk informatycznych i matematycznych

Bardziej szczegółowo

Wstęp... 9. Podstawowe oznaczenia stosowane w książce... 13

Wstęp... 9. Podstawowe oznaczenia stosowane w książce... 13 Spis treści Wstęp... 9 Podstawowe oznaczenia stosowane w książce... 13 1. PODEJŚCIE SYMBOLICZNE W BADANIACH EKONOMICZ- NYCH... 15 1.1. Uwagi dotyczące przyjętych w rozdziale konwencji nomenklaturowych.

Bardziej szczegółowo

Analiza składowych głównych idea

Analiza składowych głównych idea Analiza składowych głównych idea Analiza składowych głównych jest najczęściej używanym narzędziem eksploracyjnej analizy danych. Na metodę tę można spojrzeć jak na pewną technikę redukcji wymiarowości

Bardziej szczegółowo

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora.

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora. 1. Podstawy matematyki 1.1. Geometria analityczna W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora. Skalarem w fizyce nazywamy

Bardziej szczegółowo

Wymagania edukacyjne z matematyki

Wymagania edukacyjne z matematyki Wymagania edukacyjne z matematyki Klasa I - program Matematyka z plusem" Dział: LICZBY I DZIAŁANIA Poziom konieczny - ocena dopuszczająca porównywać liczby wymierne, zaznaczać liczby wymierne na osi liczbowej,

Bardziej szczegółowo

Badania eksploracyjne Badania opisowe Badania wyjaśniające (przyczynowe)

Badania eksploracyjne Badania opisowe Badania wyjaśniające (przyczynowe) Proces badawczy schemat i zasady realizacji Agata Górny Demografia Wydział Nauk Ekonomicznych UW Warszawa, 4 listopada 2008 Najważniejsze rodzaje badań Typy badań Podział wg celu badawczego Badania eksploracyjne

Bardziej szczegółowo

Algorytmy sztucznej inteligencji

Algorytmy sztucznej inteligencji Algorytmy sztucznej inteligencji Dynamiczne sieci neuronowe 1 Zapis macierzowy sieci neuronowych Poniżej omówione zostaną części składowe sieci neuronowych i metoda ich zapisu za pomocą macierzy. Obliczenia

Bardziej szczegółowo

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć Katalog wymagań programowych na poszczególne stopnie szkolne Matematyka. Poznać, zrozumieć Kształcenie w zakresie podstawowym. Klasa 3 Poniżej podajemy umiejętności, jakie powinien zdobyć uczeń z każdego

Bardziej szczegółowo

Sieci obliczeniowe poprawny dobór i modelowanie

Sieci obliczeniowe poprawny dobór i modelowanie Sieci obliczeniowe poprawny dobór i modelowanie 1. Wstęp. Jednym z pierwszych, a zarazem najważniejszym krokiem podczas tworzenia symulacji CFD jest poprawne określenie rozdzielczości, wymiarów oraz ilości

Bardziej szczegółowo

Rozkład materiału z matematyki dla II klasy technikum zakres podstawowy I wariant (38 tyg. 2 godz. = 76 godz.)

Rozkład materiału z matematyki dla II klasy technikum zakres podstawowy I wariant (38 tyg. 2 godz. = 76 godz.) Rozkład materiału z matematyki dla II klasy technikum zakres podstawowy I wariant (38 tyg. godz. = 76 godz.) I. Funkcja i jej własności.4godz. II. Przekształcenia wykresów funkcji...9 godz. III. Funkcja

Bardziej szczegółowo

Metody numeryczne. materiały do wykładu dla studentów. 7. Całkowanie numeryczne

Metody numeryczne. materiały do wykładu dla studentów. 7. Całkowanie numeryczne Metody numeryczne materiały do wykładu dla studentów 7. Całkowanie numeryczne 7.1. Całkowanie numeryczne 7.2. Metoda trapezów 7.3. Metoda Simpsona 7.4. Metoda 3/8 Newtona 7.5. Ogólna postać wzorów kwadratur

Bardziej szczegółowo

Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki

Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki Analiza czynnikowa Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki Budowa wskaźnika Indeks był banalny I miał wady: o Czy

Bardziej szczegółowo

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Paweł Szołtysek 12 czerwca 2008 Streszczenie Planowanie produkcji jest jednym z problemów optymalizacji dyskretnej,

Bardziej szczegółowo

Wymagania eduka cyjne z matematyki

Wymagania eduka cyjne z matematyki Wymagania eduka cyjne z matematyki Klasa I - program Matematyka z plusem" Dział: LICZ B Y I DZIAŁANIA porównywać liczby wymierne, zaznaczać liczby wymierne na osi liczbowej, zamieniać ułamki zwykłe na

Bardziej szczegółowo

Plan wynikowy. Klasa III Technik pojazdów samochodowych/ Technik urządzeń i systemów energetyki odnawialnej. Kształcenie ogólne w zakresie podstawowym

Plan wynikowy. Klasa III Technik pojazdów samochodowych/ Technik urządzeń i systemów energetyki odnawialnej. Kształcenie ogólne w zakresie podstawowym Oznaczenia: wymagania konieczne, P wymagania podstawowe, R wymagania rozszerzające, D wymagania dopełniające, W wymagania wykraczające. Plan wynikowy lasa III Technik pojazdów samochodowych/ Technik urządzeń

Bardziej szczegółowo

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU obraz dr inż. Jacek Naruniec Analiza Składowych Niezależnych (ICA) Independent Component Analysis Dąży do wyznaczenia zmiennych niezależnych z obserwacji Problem opiera

Bardziej szczegółowo

Prognozowanie kierunku ruchu indeksów giełdowych na podstawie danych historycznych.

Prognozowanie kierunku ruchu indeksów giełdowych na podstawie danych historycznych. Metody Sztucznej Inteligencji 2 Projekt Prognozowanie kierunku ruchu indeksów giełdowych na podstawie danych historycznych. Autorzy: Robert Wojciechowski Michał Denkiewicz Mateusz Gągol Wstęp Celem projektu

Bardziej szczegółowo

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski Sterowanie procesem i jego zdolność Zbigniew Wiśniewski Wybór cech do kart kontrolnych Zaleca się aby w pierwszej kolejności były brane pod uwagę cechy dotyczące funkcjonowania wyrobu lub świadczenia usługi

Bardziej szczegółowo

MATeMAtyka cz.1. Zakres podstawowy

MATeMAtyka cz.1. Zakres podstawowy MATeMAtyka cz.1 Zakres podstawowy Wyróżnione zostały następujące wymagania programowe: konieczne (K), podstawowe (P), rozszerzające (R), dopełniające (D) i wykraczające poza program nauczania (W). Wymienione

Bardziej szczegółowo

(x j x)(y j ȳ) r xy =

(x j x)(y j ȳ) r xy = KORELACJA. WSPÓŁCZYNNIKI KORELACJI Gdy w badaniu mamy kilka cech, często interesujemy się stopniem powiązania tych cech między sobą. Pod słowem korelacja rozumiemy współzależność. Mówimy np. o korelacji

Bardziej szczegółowo

Wymagania edukacyjne z matematyki w klasie III gimnazjum

Wymagania edukacyjne z matematyki w klasie III gimnazjum Wymagania edukacyjne z matematyki w klasie III gimnazjum - nie potrafi konstrukcyjnie podzielić odcinka - nie potrafi konstruować figur jednokładnych - nie zna pojęcia skali - nie rozpoznaje figur jednokładnych

Bardziej szczegółowo

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak

ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak Tytuł: Autor: ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak Wstęp Zaawansowane metody analiz statystycznych przenoszą analizy statystyczne na kolejny wyższy poziom. Określenie tego wyższego

Bardziej szczegółowo

Podstawa programowa przedmiotu MATEMATYKA. III etap edukacyjny (klasy I - III gimnazjum)

Podstawa programowa przedmiotu MATEMATYKA. III etap edukacyjny (klasy I - III gimnazjum) Podstawa programowa przedmiotu MATEMATYKA III etap edukacyjny (klasy I - III gimnazjum) Cele kształcenia wymagania ogólne: I. Wykorzystanie i tworzenie informacji. Uczeń interpretuje i tworzy teksty o

Bardziej szczegółowo

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna Badanie współzależności zmiennych Uwzględniając ilość zmiennych otrzymamy 4 odmiany zależności: Zmienna zależna jednowymiarowa oraz jedna

Bardziej szczegółowo

KLUCZ PUNKTOWANIA ODPOWIEDZI

KLUCZ PUNKTOWANIA ODPOWIEDZI Egzamin maturalny maj 009 MATEMATYKA POZIOM PODSTAWOWY KLUCZ PUNKTOWANIA ODPOWIEDZI Zadanie 1. Matematyka poziom podstawowy Wyznaczanie wartości funkcji dla danych argumentów i jej miejsca zerowego. Zdający

Bardziej szczegółowo

Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego

Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego Ewaluacja biegłości językowej Od pomiaru do sztuki pomiaru Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego Tomasz Żółtak Instytut Badań Edukacyjnych oraz

Bardziej szczegółowo

Matematyka ubezpieczeń majątkowych 1.10.2012 r.

Matematyka ubezpieczeń majątkowych 1.10.2012 r. Zadanie. W pewnej populacji każde ryzyko charakteryzuje się trzema parametrami q, b oraz v, o następującym znaczeniu: parametr q to prawdopodobieństwo, że do szkody dojdzie (może zajść co najwyżej jedna

Bardziej szczegółowo

Przedmiotowy System Oceniania klasa I TH matematyka PP 2015/16

Przedmiotowy System Oceniania klasa I TH matematyka PP 2015/16 Przedmiotowy System Oceniania klasa I TH matematyka PP 2015/16 PROPOZYCJA POZIOMÓW WYMAGAŃ Wyróżnione zostały następujące wymagania programowe: konieczne (K), podstawowe (P), rozszerzające (R), dopełniające

Bardziej szczegółowo

Projekt zarządzania jakością wykorzystujący STATISTICA Data Miner przynosi w voestalpine roczne oszczędności w wysokości 800 000 EUR

Projekt zarządzania jakością wykorzystujący STATISTICA Data Miner przynosi w voestalpine roczne oszczędności w wysokości 800 000 EUR Projekt zarządzania jakością wykorzystujący STATISTICA Data Miner przynosi w voestalpine roczne oszczędności w wysokości 800 000 EUR Przemysł samochodowy stawia najwyższe wymagania jakościowe w stosunku

Bardziej szczegółowo