Małgorzata Misztal STATYSTYCZNE METODY ROZPOZNAWANIA OBRAZÓW I ICH ZASTOSOWANIA. Katedra Metod Statystycznych, Uniwersytet Łódzki, Łódź

Wielkość: px
Rozpocząć pokaz od strony:

Download "Małgorzata Misztal STATYSTYCZNE METODY ROZPOZNAWANIA OBRAZÓW I ICH ZASTOSOWANIA. Katedra Metod Statystycznych, Uniwersytet Łódzki, Łódź"

Transkrypt

1 STATYSTYCZNE METODY ROZPOZNAWANIA OBRAZÓW I ICH ZASTOSOWANIA Małgorzata Misztal Katedra Metod Statystycznych, Uniwersytet Łódzki, Łódź 1 WPROWADZENIE Szybko zmieniające się warunki stosowania określonych metod analizy statystycznej czy metod modelowania ekonometrycznego do rozwiązywania problemów o charakterze decyzyjnym wymuszają zmianę podejścia do dotychczas wykorzystywanych procedur badawczych i metod diagnostyki czy predykcji statystycznej. Obserwowany w ostatnich latach rozwój techniki komputerowej wywarł ogromny wpływ na powstanie nowych dziedzin nauki, które wymagają zapamiętania i przetwarzania dużej ilości danych opisanych w przestrzeniach wielowymiarowych w celu efektywnego rozwiązywania praktycznych problemów. Złożoność algorytmów i czas obliczeń przestały już stanowić barierę rozwoju narzędzi usprawniających szeroko pojętą działalność człowieka, w tym także metod wspomagania procesów podejmowania decyzji. Nowe techniki zbierania informacji statystycznej, wymuszone przez komputerowe bazy danych, skłaniają do stosowania metod umożliwiających opracowanie i przeanalizowanie informacji w możliwie krótkim czasie i dla nieskończenie dużych zbiorów danych statystycznych. Takie właśnie metody proponuje teoria rozpoznawania obrazów, przy czym obraz rozumiany jest jako ilościowy opis obiektu, zdarzenia czy zjawiska. Ogólnie zadanie teorii rozpoznawania obrazów polega na określaniu przynależności rozmaitego typu obiektów do pewnych klas. Rozpoznawanie to przebiega w sytuacji braku apriorycznej informacji co do reguł przynależności obiektów do poszczególnych klas, a jedyną dostępną informację stanowi zwykle tzw. ciąg uczący, złożony z obiektów, których prawidłową klasyfikację znamy (tzw. rozpoznawanie z nauczycielem). Najczęściej wykorzystywane, teoriodecyzyjne metody rozpoznawania wymagają przyjęcia założenia, że rozpoznawany obiekt, scharakteryzowany wartościami p cech, może być rozpatrywany jako punkt x=(x 1,..., x p ) T p-wymiarowej przestrzeni X (X R n ) i traktowany jako realizacja wektora losowego X o funkcji gęstości f i (x), i K (K={1,..., k} - jest zbiorem numerów klas). Algorytmem rozpoznawania ψ (algorytmem klasyfikacji, regułą decyzyjną) nazywamy przepis, według którego odbywa się przyporządkowanie rozpoznawanemu obiektowi x X numeru klasy i K: ψ(x) = i. Innymi słowy, mamy tu do czynienia z odwzorowaniem przestrzeni cech w zbiór numerów klas: ψ: X K, bądź też z generowaniem rozkładu przestrzeni cech na rozłączne obszary decyzyjne: R i = {x X: ψ(x)=i}, i K [8]. W rozpoznawaniu teoriodecyzyjnym do opisu sytuacji wykorzystuje się modele probabilistyczne i statystyczne, ze względu na ich szczególną przydatność do wykrywania niepewnych i niejednoznacznych związków między klasami i ilościowymi charakterystykami obiektów. 2 CELE I ZAŁOŻENIA PRACY Zasadniczym celem pracy jest ocena wybranych klasycznych i nieklasycznych metod rozpoznawania obrazów.

2 Cele szczegółowe określone są następująco: Prezentacja i klasyfikacja wybranych algorytmów rozpoznawania obrazów w zależności od a priori posiadanej informacji na temat rozkładów prawdopodobieństwa charakteryzujących losowy związek między klasami i cechami. Ocena właściwości (w sensie dokładności predykcji) klasycznych algorytmów rozpoznawania na podstawie badań eksperymentalnych. Stworzenie "rankingu" algorytmów rozpoznawania poprzez określenie zasad wyboru z dużej liczby algorytmów rozpoznawania metody najlepszej (w sensie prostoty konstrukcji, precyzji klasyfikacji i łatwości implementacji komputerowej). Ocena skuteczności klasycznych i nieklasycznych metod rozpoznawania z punktu widzenia efektywności decyzji w konkretnych problemach badawczych. Teza rozprawy została ujęta następująco: drzewa klasyfikacyjne mogą być traktowane jako uniwersalne narzędzie tworzenia reguł przynależności obiektów do klas. 3 METODY TWORZENIA ALGORYTMÓW ROZPOZNAWANIA Rozpoznawanie obrazów można zdefiniować jako wieloetapowy proces przetwarzania informacji, podczas którego relatywnie duża ilość danych wejściowych zostaje przetworzona na mniejszą ilość danych użytecznych, zakończony klasyfikacją czyli przypisaniem obiektowi numeru klasy [1]. Wśród metod tworzenia algorytmów rozpoznawania wyróżniamy podejście oparte na modelu probabilistycznym oraz podejście oparte na modelu statystycznym. W przypadku modelu probabilistycznego zakłada się, że dla każdego rozpoznawanego obiektu x znane jest prawdopodobieństwo a priori zdarzenia, że pochodzi on z klasy o i-tym numerze, a także znane są warunkowe gęstości rozkładów cech w poszczególnych klasach: f ( x / i) = f. i W takiej sytuacji możliwe jest obliczenie wskaźnika jakości rozpoznawania oraz, poprzez rozwiązanie odpowiedniego problemu optymalizacyjnego, wyznaczenie reguły decyzyjnej minimalizującej ten wskaźnik. W zadaniach rozpoznawania opartych na modelach probabilistycznych wykorzystuje się np. klasyfikację bayesowską lub regułę minimaksową (por. np. [7], [8], [11]). Model statystyczny jest z kolei podstawą konstrukcji reguł decyzyjnych ze zbiorem uczącym, złożonym z obiektów, dla których znany jest wektor wartości cech oraz numer klasy. Wśród metod rozpoznawania ze zbiorem uczącym rozważać można dwie sytuacje: 1 Znamy z założenia postać funkcyjną warunkowych gęstości w klasach a nie znamy ich parametrów dokonujemy zatem ich estymacji na podstawie zbioru uczącego. Wśród algorytmów rozpoznawania opartych na parametrycznym modelu statystycznym szczególną uwagę zwraca się na te metody, w których przyjmuje się założenie o normalności rozkładów cech obiektów w klasach. W tym przypadku przedstawić można zwykłe, bayesowskie i quasi-bayesowskie estymatory kwadratowych i liniowych funkcji klasyfikujących i dyskryminujących a także algorytmy wykorzystujące odległości Rao i Mahalanobisa (por. np. [7]). 2 Brak jest jakichkolwiek założeń co do postaci funkcyjnej warunkowych gęstości w klasach dokonuje się więc estymacji funkcji gęstości za pomocą metod nieparametrycznych. W tym celu wykorzystać można np. algorytm rozpoznawania oparty na estymatorze Parzena oraz algorytm oparty na przedziałach zmienności cech. Szczególnym przypadkiem nieparametrycznych metod rozpoznawania są algorytmy minimalnoodległościowe, bazujące na pojęciach sąsiedztwa i odległości. Wśród minimalnoodległościowych algorytmów rozpoznawania wymienić należy algorytm najbliższego sąsiada (NN), α najbliższych sąsiadów (α-nn) oraz α-tego najbliższego sąsiada (α-th NN) a także algorytm oparty na odległościach między obiektami (por. np. [5], [8], [14]). Dodatkowo, wspomnieć warto także o metodzie Mojirsheibaniego [10] tworzenia algorytmów kombinowanych, będących złożeniem kilku reguł decyzyjnych. Wymienione algorytmy rozpoznawania ok.- reślić można mianem klasycznych, bazują one bowiem na rozwiązaniach analizy dyskryminacji, metod decyzji statystycznych, teorii

3 estymacji (zarówno parametrycznej jak i nieparametrycznej), bayesowskiej teorii decyzji lub metod optymalizacyjnych. Alternatywę dla omówionych metod rozpoznawania stanowić mogą nieklasyczne metody określania reguł przynależności obiektów do klas. Szczególną uwagę zwrócić tu należy na analizę drzew klasyfikacyjnych, bowiem metoda rekurencyjnego podziału jest stosunkowo mało znana, zwłaszcza w zastosowaniach ekonomiczno społecznych. Metoda rekurencyjnego podziału polega na stopniowym podziale p-wymiarowej przestrzeni cech na rozłączne podzbiory aż do uzyskania ich homogeniczności ze względu na wyróżnioną cechę. W wyniku rekurencyjnego podziału zbiór uczący U zostaje podzielony na M rozłącznych podzbiorów U 1, U 2,..., U M zgodnie z następującą procedurą (por. [4]): 1 Dla danego zbioru obiektów sprawdzić, czy jest on jednorodny ze względu na wartości zmiennej zależnej lub spełnione jest inne, przyjęte kryterium stopu. Jeśli tak zakończyć postępowanie. 2 Jeśli nie rozważyć wszystkie możliwe podziały zbioru U na rozłączne podzbiory U 1, U 2,..., U M w oparciu o wartości kolejno wybieranych zmiennych objaśniających. 3 Ocenić jakość każdego z podziałów zgodnie z przyjętym kryterium i wybrać najlepszy z nich. 4 Podzielić zbiór obiektów w wybrany sposób. Kroki 1-4 wykonać rekurencyjnie dla każdego podzbioru U 1, U 2,..., U M. Procedurę podziału kończymy, jeżeli zostało osiągnięte założone kryterium stopu zwykle jednorodność podzbiorów U 1, U 2,..., U M lub określona, minimalna liczebność podzbiorów. Proces rekurencyjnego podziału zbioru U można przedstawić graficznie w postaci drzewa klasyfikacyjnego. Wśród algorytmów tworzących drzewa klasyfikacyjne wymienić można m. in. CART (Classification and Regression Trees [2]), QUEST (Quick, Unbiased, Efficient Statistical Trees [9]), CRUISE (Classification Rule with Unbiased Interaction Selection and Estimation [6]). Do nieklasycznych metod rozpoznawania zaliczyć można także sieci neuronowe, powstałe na gruncie teorii biocybernetycznej. 4 OCENA JAKOŚCI WYBRANYCH ALGORYTMÓW ROZPOZNAWANIA Wyniki przedstawione w pracy obejmują: Ocenę wybranych klasycznych metod rozpoznawania; Sformułowanie reguł ułatwiających decydentowi wybór spośród dużej liczby algorytmów rozpoznawania metod najlepszych w celu efektywnego rozwiązania praktycznych zadań; Zastosowanie i ocenę efektywności metod rozpoznawania obrazów przy wspomaganiu procesów podejmowania decyzji w rzeczywistych problemach badawczych. Porównanie wybranych klasycznych algorytmów rozpoznawania wymagało przeprowadzenia eksperymentu Monte Carlo. 4.1 Założenia eksperymentu Monte Carlo Rozpoznawaniu podlegały obiekty należące do dwóch klas (k=2). W praktycznych zastosowaniach algorytmów rozpoznawania klasyfikacja obiektów należących do dwóch klas ma miejsce najczęściej. Np. w diagnostyce medycznej rozważamy osoby, u których wystąpiła bądź nie dana jednostka chorobowa; w analizach finansowych bankowcy dzielą przedsiębiorstwa na takie, które są w stanie spłacić zaciągnięte kredyty i te, którym kredytu udzielać nie należy; w badaniach demograficznych rozważać można podział województw na te, w których występuje ujemny przyrost naturalny i takie, w których przyrost jest dodatni, itp. Przyjęto, że każdy obiekt opisany jest czterowymiarowym wektorem obserwacji x=[x 1,x 2,x 3,x 4 ] T. Wartości każdej cechy wektora obserwacji generowano z rozkładów jednowymiarowych, zgodnie z założonymi parametrami. Rozpatrzono trzy warianty rozkładów (I klasy najbardziej zbliżone; III klasy najbardziej oddalone). Do konstrukcji algorytmu rozpoznawania wykorzystywano zbiór uczący zaś jakość uzyskanej reguły klasyfikacyjnej oceniano na podstawie klasyfikacji obiektów zbioru testowego. W konkretnych sytuacjach badawczych zjawiskiem bardzo częstym jest posiadanie mało licznego zbioru uczącego. Wiąże się to zwykle z szeroko rozumianymi kosztami pozyskiwania informacji, np. w analizach medycznych zbiory

4 o niewielkiej liczebności stanowić mogą pacjenci poddani badaniom obciążającym lub zmarli podczas operacji; w analizach finansowych, z kolei, banki mogą zasłaniać się tajemnicą bankową i nie udostępniać danych dotyczących niewypłacalnych kredytobiorców, itd. Dlatego też rozpatrzono dwa warianty liczebności zbioru uczącego: N=20 obiektów (N 1 =7; N 2 =13); N=60 obiektów (N 1 =27; N 2 =33). W obu przypadkach liczba obiektów ciągu testowego była taka sama: n=30 obiektów (n 1 =15; n 2 =15). Ocenie poddane zostały następujące algorytmy rozpoznawania: 1 Algorytm najbliższego sąsiada z miarami odległości Euklidesa, Czekanowskiego, Canberra, Jeffreysa i Matusity. 2 Algorytm α najbliższych sąsiadów z miarami odległości jak w przypadku algorytmu najbliższego sąsiada dla liczby sąsiadów równej 3 oraz 5. 3 Algorytm α-tego najbliższego sąsiada z miarami odległości oraz liczbą sąsiadów jak w przypadku algorytmu α najbliższych sąsiadów. 4 Algorytm rozpoznawania wykorzystujący odległość Mahalanobisa. 5 Algorytmy rozpoznawania wykorzystujące zwykłe obciążone, zwykłe nieobciążone, bayesowskie i quasi-bayesowskie estymatory liniowych funkcji klasyfikujących: 6 Algorytmy rozpoznawania wykorzystujące zwykłe obciążone, zwykłe nieobciążone, bayesowskie i quasi-bayesowskie estymatory liniowych funkcji kwadratowych. 7 Algorytm oparty na odległościach wykorzystujący funkcje klasyfikacyjne z miarami odległości Euklidesa, Czekanowskiego i Canberra. 8 Algorytm oparty na estymatorze Parzena z gaussowską funkcją jądra. Każdy eksperyment powtórzono 1000 razy dla każdego z sześciu rozpatrywanych wariantów (3 warianty rozkładu * 2 warianty liczebności). Porównywalność wyników zapewniło wykorzystanie tych samych prób w każdym z rozważanych algorytmów. Obliczenia wykonano w pakiecie GAUSS. 4.2 Podstawowe wyniki Analiza wyników uzyskanych w przeprowadzonym eksperymencie dla poszczególnych wariantów rozkładu i liczebności pozwala na sformułowanie następujących wniosków: 1 Zwiększenie liczby obiektów ciągu uczącego prowadzi do zmniejszenia odsetków błędnych klasyfikacji niezależnie od rozważanego algorytmu rozpoznawania. 2 Wśród algorytmów minimalnoodległościowych najgorsze rezultaty klasyfikacji dostajemy dla algorytmu α-tego najbliższego sąsiada. Dodatkowo zwiększenie wartości α w tym przypadku prowadzi do wzrostu odsetka błędnych klasyfikacji. 3 Algorytm oparty na odległościach pozwala poprawić dokładność klasyfikacji w stosunku do algorytmów NN, α-nn i α-tego-nn dla odległości Euklidesa oraz Czekanowskiego w przypadku klas, których środki ciężkości leżą niedaleko od siebie. 4 Liniowe funkcje klasyfikacyjne dają niskie odsetki błędnych klasyfikacji niezależnie od typu estymatora. 5 Kwadratowe funkcje klasyfikujące dla małej liczby obiektów ciągu uczącego (N=20 obiektów) dają istotnie gorsze rezultaty w przypadku estymatorów zwykłego nieobciążonego i estymatora bayesowskiego. Po zwiększeniu liczebności próby uczącej (N=60 obiektów) nie ma różnic w odsetkach błędnych rozpoznań między rozważanymi estymatorami kwadratowych funkcji klasyfikacyjnych. 6 Dla niewielkiej liczebności ciągu uczącego liniowe funkcje klasyfikacyjne dają mniejsze odsetki błędnych rozpoznań niż funkcje kwadratowe. Dla bardziej licznych prób zależność ta jest odwrotna. 7 Algorytm z estymatorem jądrowym Parzena najlepsze wyniki daje w przypadku najbardziej oddalonych klas (wariant III rozkładu) są to najmniejsze odsetki błędnych klasyfikacji w stosunku do wszystkich pozostałych rozważanych reguł klasyfikacyjnych. Przeprowadzona analiza ułatwia sformułowanie pewnych reguł, które mogą być następnie wykorzystane w praktyce. 1 W przypadku prób uczących o niewielkiej liczebności użyteczną metodą klasyfikacji są funkcje liniowe, odporne na odstępstwa od normalności rozkładu cech w klasach. Zwykłe estymatory funkcji liniowych są także

5 łatwo dostępne w pakietach statystycznych (np. STATISTICA). Przy większej liczbie elementów ciągu uczącego poprawę jakości klasyfikacji dają funkcje kwadratowe (np. zwykły estymator funkcji kwadratowych), gdyż zachodzi wówczas asymptotyczna normalność. 2 Wśród algorytmów rozpoznawania bazujących na odległościach nie poleca się stosować algorytmu α-tego najbliższego sąsiada, dla którego dostajemy istotnie gorsze oszacowania prawdopodobieństw błędnej klasyfikacji. Algorytmy najbliższego sąsiada i α- najbliższych sąsiadów dają porównywalne wyniki. Na podkreślenie zasługuje fakt, iż macierze odległości wg formuły np. Euklidesa czy miejskiej można w prosty sposób obliczyć korzystając z ogólnie dostępnych pakietów statystycznych. Poprawę rezultatów klasyfikacji daje algorytm oparty na odległościach. 3 Pewną wadą metod minimalnoodległościowych jest to, że wymagają przechowywania całego ciągu uczącego, bowiem klasyfikacja każdego nowego obiektu wymaga obliczenia jego odległości od wszystkich obiektów ciągu uczącego, co znacznie wydłuża czas obliczeń. Przykładowo dla wariantu Ia obliczenia w przypadku algorytmu 3-NN zajęły około 5 minut, w przypadku algorytmu opartego na odległościach 4 minuty a w przypadku liniowych funkcji klasyfikacyjnych (4 estymatory) 30 sekund. Dla wariantu Ib czas pracy komputera wyniósł odpowiednio: 19 minut, 17 minut i 40 sekund. Trudno także jednoznacznie wskazać najlepszą miarę odległości. Wybór miary odbywać się może tylko na drodze eksperymentalnej z kilku czy kilkunastu sprawdzonych miar wybieramy tę, dla której dostajemy niższe odsetki błędnych klasyfikacji. 4 W zastosowaniach praktycznych metod rozpoznawania problemem staje się wybór algorytmu dla obiektów opisanych zestawem cech mieszanych. Zwrócić trzeba uwagę na fakt, że usunięcie z wektora obserwacji zmiennych jakościowych znacznie zubaża analizę. Stąd w przypadku liniowych i kwadratowych funkcji klasyfikujących oraz odległości Mahalanobisa konieczna staje się transformacja zmiennych jakościowych na wektory zmiennych zerojedynkowych. Prowadzi to do zwiększenia wymiaru przestrzeni, co jest zjawiskiem niekorzystnym w przypadku niewielkiej liczebności ciągu uczącego. Z drugiej strony, metody te są mało kosztowne ze względu na czas obliczeń - klasyfikacja obiektów próby testowej wymaga przechowywania w pamięci jedynie współczynników funkcji klasyfikujących. 5 Trudności występują także przy wyborze miary odległości dla zmiennych mieszanych do algorytmów minimalnoodległościowych. Pewnym rozwiązaniem jest np. miara Gowera czy odległość kombinowana Cessie i Houwelingen [3]. Zasadne wydaje się zatem stwierdzenie, że wybór algorytmu rozpoznawania zależy od postawionego zadania. W sytuacjach rzeczywistych klasyczne metody rozpoznawania wymagają modyfikacji stosownych do rozważanego, konkretnego problemu, chociaż przeprowadzone badania symulacyjne mogą być podstawą do rekomendacji niektórych reguł klasyfikacyjnych. 5 ZASTOSOWANIA ALGORYTMÓW ROZPOZNAWANIA OBRAZÓW Przedstawione algorytmy rozpoznawania ze zbiorem uczącym znajdują zastosowanie w wielu konkretnych problemach badawczych z różnych dziedzin nauki. Zaprezentujmy propozycje wykorzystania niektórych metod rozpoznawania w procesie podejmowania decyzji w szeroko rozumianych naukach przyrodniczych i ekonomiczno społecznych. Przy wyborze metod rozpoznawania kierować się można kryterium użyteczności praktycznej, prostoty interpretacji wyników i dostępności programów realizujących algorytmy rozpoznawania. Wybrane algorytmy rozpoznawania wykorzystano do klasyfikacji obiektów z 9 zbiorów danych (dane rzeczywiste). Każdy z analizowanych zbiorów w sposób losowy dzielono na zbiór uczący i zbiór testowy. Jako miernik jakości algorytmu przyjęto odsetek błędnych klasyfikacji w próbie testowej (dla bardziej licznych zbiorów danych) lub oszacowanie błędu klasyfikacji metodą leave-one-out. Do obliczeń wykorzystano: Pakiet STATISTICA PL moduły: Analiza dyskryminacyjna oraz Drzewa klasyfikacyjne (algorytmy CART i QUEST);

6 Własne programy napisane w STATISTICA Basic realizujące algorytmy najbliższego sąsiada, α najbliższych sąsiadów, algorytm oparty na odległościach z miarami odległości Euklidesa, Czekanowskiego, Canberra, mieszaną, algorytm wykorzystujący odległość Mahalanobisa, algorytmy wykorzystujące zwykłe estymatory kwadratowych funkcji klasyfikujących oraz zwykłe, bayesowskie i quasi-bayesowskie estymatory liniowych funkcji klasyfikacyjnych; Udostępnione w Internecie przez autorów wersje programów tworzących drzewa klasyfikacyjne QUEST i CRUISE. Dla zwiększenia przejrzystości prowadzonych analiz wyodrębniono cztery grupy przykładów z różnych dziedzin nauki: 1 Diagnostyka medyczna: klasyfikacja pacjentów poddanych PTCA (2 klasy, 6 cech, w tym 2 jakościowe); klasyfikacja pacjentów po przeszczepie szpiku (2 klasy, 5 cech, w tym 3 jakościowe); klasyfikacja pacjentów z miokardiopatią (3 klasy, 5 cech); klasyfikacja pacjentów poddanych CABG (2 klasy, 13 cech, w tym 7 jakościowych). 2 Badania histologiczne: klasyfikacja świnek morskich ze względu na poziom amin katecholowych (3 klasy, 5 cech). 3 Problemy społeczno ekonomiczne: analiza ryzyka kredytowego (2 klasy, 10 cech, w tym 5 jakościowych); klasyfikacja przedsiębiorstw ze względu na osobę menedżera (3 klasy, 5 cech, w tym 1 binarna); klasyfikacja przedsiębiorstw opisanych za pomocą wskaźników ekonomicznych (4 klasy, 5 cech). 4 Psychologia: charakterystyka przyczyn narkomanii wśród młodzieży (2 klasy, 4 cechy). Przeanalizujmy dla przykładu zadanie rozpoznawania, w którym obiektami podlegającymi klasyfikacji są osoby w wieku licealnym, zagrożone narkomanią. Wyróżnione zostały dwie klasy obiektów: klasa 1 NIE osoby nie zażywające środków odurzających; klasa 2 TAK osoby narkotyzujące się. Każda osoba została opisana czterowymiarowym wektorem cech. Zmienne te obrazują liczbę punktów uzyskanych w testach psychologicznych: PZR poczucie zrozumiałości; PZ poczucie zaradności; PS poczucie sensowności; WW poczucie własnej wartości. Zbiór danych podzielono losowo na próbę uczącą i testową o liczebnościach: NU 1 =20, NU 2 =20; NT 1 =10, NT 2 =10. Wyniki klasyfikacji przedstawia tabela 1 oraz rysunki 1 i 2. Tabela 1. Błędne klasyfikacje dla zbioru osób zagrożonych narkomanią. Algorytm rozpoznawania Błędne klasyfikacje dla zbioru testowego O. Czekanowskiego 7/20 NN O. Euklidesa 6/20 O. Canberra 7/20 O. Jeffreysa Matusity 7/20 odległości 3-NN 5-NN 7-NN Czekanowskiego 8/20 6/20 6/20 α-nn Euklidesa 7/20 8/20 6/20 Canberra 6/20 7/20 7/20 Jeffreysa Matusity 7/20 8/20 5/20 odległości 3 th -NN 5 th -NN 7 th -NN Czekanowskiego 7/20 6/20 12/20 α th -NN Euklidesa 8/20 11/20 12/20 Canberra 6/20 9/20 10/20 Jeffreysa Matusity 7/20 9/20 11/20 Odległości Mahalanobisa 3/20 Liniowe funkcje (1)e ˆi (2)e ˆi (3)e ˆi (4) eˆ i klasyfikacyjne 3/20 3/20 3/20 3/20 Kwadratowe funkcje (1)u ˆi (2) u ˆi (3) u ˆi( x) (4) uˆ i ( klasyfikacyjne 5/20 5/20 5/20 5/20 Algorytm Euklidesa 4/20 oparty na Czekanowskiego 4/20 odległościach Canberra 5/20 Metody nieparametryczne - h=0,40 h=0,55 h=0,70 estymator Parzena 6/20 6/20 6/20 QUEST szacowane prawdopodobieństwa a priori; drzewo wielowymiarowe podział w oparciu o kombinacje 3/20 liniowe; reguła stopu 1SE; uzyskane drzewo (rys. 1) ma dwa węzły końcowe; CRUISE szacowane prawdopodobieństwa a priori; podziały jednowymiarowe; reguła stopu 1SE uzyskane drzewo (rys. 2) ma trzy węzły końcowe; 2/20 Reguła klasyfikacyjna uzyskana w wyniku zastosowania algorytmu QUEST (por. rys. 1) jest następująca:

7 Obiekt x klasyfikujemy do klasy TAK narkomani jeśli wartość funkcji dyskryminacyjnej F(x) 0; w przeciwnym wypadku rozpoznawany obiekt zaliczamy do grupy osób nie biorących narkotyków. Funkcja dyskryminacyjna w węźle ma postać: F(x)=-0, ,0063*PZR-0,0174*PZ+ +0,0074*PS+0,0602*WW. tak klasa - TAK F(x) 0,93192 nie klasa - NIE Rys. 1. Drzewo klasyfikacyjne dla zbioru osób zagrożonych narkomanią algorytm QUEST. Drzewo klasyfikacyjne uzyskane w wyniku zastosowania algorytmu CRUISE przedstawia rys. 2. klasa - TAK WW 25,61 >25,61 klasa - TAK WW 27,72 >27,72 klasa - NIE Rys. 2. Drzewo klasyfikacyjne dla zbioru osób zagrożonych narkomanią algorytm CRUISE. Reguła klasyfikacyjna uzyskana po zastosowaniu algorytmu CRUISE brzmi następująco: osoby o poczuciu własnej wartości wyższym od 27,72 pkt. klasyfikujemy do grupy nie biorących narkotyków; osoby o niskim poczuciu własnej wartości do 27,72 pkt. do grupy narkomanów. Jak łatwo zauważyć, najgorsze klasyfikacje otrzymujemy dla algorytmu α-tego najbliższego sąsiada. Wykorzystanie algorytmu z odległością Mahalanobisa oraz liniowych funkcji klasyfikacyjnych (we wszystkich czterech wariantach) daje niski odsetek błędnych klasyfikacji (po 3 obiekty) mimo braku spełnienia założeń o wielowymiarowej normalności (co sprawdzono uogólnionym testem normalności Shapiro-Wilka). Taką samą liczbę błędnych zaklasyfikowań daje algorytm QUEST z wielowymiarowymi podziałami za pomocą kombinacji liniowych. Najlepszy rezultat otrzymujemy dla drzewa utworzonego za pomocą algorytmu CRUISE (2 obiekty błędnie zaklasyfikowane). Zauważmy, iż do podziałów wykorzystywana jest tutaj tylko jedna z cech poczucie własnej wartości. Zatem klasyfikacja nowej osoby wymaga poddania jej tylko testowi określającemu poczucie własnej wartości. 6 UWAGI KOŃCOWE Szczegółowa analiza wyników uzyskanych podczas rozwiązywania realnych zadań rozpoznawania pozwala sformułować wniosek, że w praktycznych zastosowaniach niegorsze (a zwykle lepsze) wyniki klasyfikacji (najmniejszy błąd klasyfikacji szacowany na podstawie zbioru testowego lub sprawdzania krzyżowego) dają algorytmy tworzące drzewa klasyfikacyjne. Zwrócić należy uwagę na fakt, że procedury tworzenia drzew klasyfikacyjnych nie mają wymagań co do rozkładu badanych zmiennych i są odporne na obserwacje nietypowe. Drzewa klasyfikacyjne nie stawiają warunków dotyczących pomiaru badanych zmiennych a także umożliwiają klasyfikację obrazów opisanych wektorem cech z wartościami brakującymi. Uzyskane w wyniku analizy drzew klasyfikacyjnych reguły decyzyjne są proste w interpretacji a klasyfikacja obiektów ciągu testowego nie wymaga zwykle pomiaru wszystkich cech objaśniających, co zmniejsza koszty prowadzonych analiz. Wymienione zalety i dostępność oprogramowania pozwalają uznać metody tworzenia drzew klasyfikacyjnych za użyteczne i precyzyjne narzędzie rozpoznawania, alternatywne w stosunku do metod klasycznych. Przedstawione przykłady zastosowań metod rozpoznawania wskazują, że mogą one być szeroko wykorzystywane do wspomagania procesów podejmowania decyzji w każdym aspekcie działalności człowieka.

8 Omówione algorytmy rozpoznawania nie wyczerpują oczywiście problematyki konstrukcji reguł klasyfikacyjnych. Dalsze kierunki badań obejmować będą te metody rozpoznawania, w których obok ciągu uczącego wykorzystuje się zbiór reguł ekspertów, stanowiący w tym przypadku komplementarny sposób pozyskiwania wiedzy na potrzeby algorytmu rozpoznawania. Zadanie rozpoznawania, w którym zakładamy jednoczesną znajomość zbioru uczącego i reguł eksperta ma duże walory praktyczne, gdyż w rzeczywistych przykładach zastosowań metod rozpoznawania oba rodzaje danych są uzupełniającymi się źródłami informacji o odmiennym pochodzeniu i uzyskanymi w różny sposób. Wspólne rozpatrzenie dwóch jakościowo różnych typów danych, w inny sposób ujmujących związki między klasami i cechami, powinno być inspiracją nowych idei zmierzających do jednoczesnego wykorzystania tych danych w algorytmie rozpoznawania. 13) StatSoft, Inc. (1997). STATISTICA PL dla Windows (Tom V): Języki: STATISTICA BASIC i SCL. Kraków: StatSoft Polska. 14) Tadeusiewicz, R., Flasiński, M. (1991). Rozpoznawanie obrazów. Warszawa: PWN. BIBLIOGRAFIA 1) Bobrowski, L. (1987). Dyskryminacja symetryczna w rozpoznawaniu obrazów. Teoria, algorytmy, zastosowania w komputerowym wspomaganiu diagnostyki medycznej. Wrocław: Ossolineum. 2) Breiman, L., Friedman, J., Olshen, R., Stone, C. (1984). Classification and Regression Trees. London: CRC Press. 3) Cessie, S., Houwelingen, H. C. (1995). Testing the Fit of a Regression Model via Score Tests in Random Effects Models. Biometrics. 1995, Vol. 51, No 2, pp ) Gatnar, E. (2001). Nieparametryczna metoda dyskryminacji i regresji. Warszawa: PWN. 5) Jajuga, K. (1990). Statystyczna teoria rozpoznawania obrazów. Warszawa: PWN. 6) Kim, H., Loh, W.-Y. (2001). Classification Trees with Unbiased Multiway Splits, Journal of the American Statistical Association. 2001, Vol. 96, pp ) Krzyśko, M. (1990). Analiza dyskryminacyjna. Warszawa: WNT. 8) Kurzyński, M. (1997). Rozpoznawanie obiektów. Metody statystyczne. Wrocław: Oficyna Wydawnicza Politechniki Wrocławskiej. 9) Loh, W.-Y., Shih, Y.-S. (1997). Split Selection Methods for Classification Trees. Statistica Sinica. 1997, Vol. 7, pp ) Mojirsheibani, M. (2000). A Kernel-Based Combined Classification Rule. Statistics & Probability Letters. 2000, Vol. 48, pp ) Rao, R. C. (1982). Modele liniowe statystyki matematycznej. Warszawa: PWN. 12) StatSoft, Inc. (1997). STATISTICA PL dla Windows. Tom 3. Kraków: StatSoft Polska.

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

2. Empiryczna wersja klasyfikatora bayesowskiego

2. Empiryczna wersja klasyfikatora bayesowskiego Algorytmy rozpoznawania obrazów 2. Empiryczna wersja klasyfikatora bayesowskiego dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Brak pełnej informacji probabilistycznej Klasyfikator bayesowski

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela

Statystyka w pracy badawczej nauczyciela Statystyka w pracy badawczej nauczyciela Wykład 1: Terminologia badań statystycznych dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka (1) Statystyka to nauka zajmująca się zbieraniem, badaniem

Bardziej szczegółowo

WYKORZYSTANIE DRZEW KLASYFIKACYJNYCH DO WSPOMAGANIA

WYKORZYSTANIE DRZEW KLASYFIKACYJNYCH DO WSPOMAGANIA WYKORZYSTANIE DRZEW KLASYFIKACYJNYCH DO WSPOMAGANIA PROCESÓW PODEJMOWANIA DECYZJI mgr Małgorzata Misztal 6 Uwagi wstępne Działalność człowieka to nieustanny proces podejmowania decyzji. Z każdą decyzją

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

8. Drzewa decyzyjne, bagging, boosting i lasy losowe Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.

Bardziej szczegółowo

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp Wstęp Problem uczenia się pod nadzorem, inaczej nazywany uczeniem się z nauczycielem lub uczeniem się na przykładach, sprowadza się do określenia przydziału obiektów opisanych za pomocą wartości wielu

Bardziej szczegółowo

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Wnioskowanie bayesowskie

Wnioskowanie bayesowskie Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,

Bardziej szczegółowo

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie Wprowadzenie Konstrukcja binarnych drzew klasyfikacyjnych polega na sekwencyjnym dzieleniu podzbiorów przestrzeni próby X na dwa rozłączne i dopełniające się podzbiory, rozpoczynając od całego zbioru X.

Bardziej szczegółowo

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne. STRESZCZENIE rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne. Zasadniczym czynnikiem stanowiącym motywację dla podjętych w pracy rozważań

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE UNIWERSYTET WARMIŃSKO-MAZURSKI W OLSZTYNIE PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE http://matman.uwm.edu.pl/psi e-mail: psi@matman.uwm.edu.pl ul. Słoneczna 54 10-561

Bardziej szczegółowo

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0 Nazwa przedmiotu: Kierunek: Matematyka - Statystyka matematyczna Mathematical statistics Inżynieria materiałowa Materials Engineering Rodzaj przedmiotu: Poziom studiów: forma studiów: obowiązkowy studia

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład-26.02.07. Przedmiot statystyki

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład-26.02.07. Przedmiot statystyki Przedmiot statystyki. Graficzne przedstawienie danych. Wykład-26.02.07 Statystyka dzieli się na trzy części: Przedmiot statystyki -zbieranie danych; -opracowanie i kondensacja danych (analiza danych);

Bardziej szczegółowo

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa. Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa. Paweł Strawiński Uniwersytet Warszawski Wydział Nauk Ekonomicznych 16 stycznia 2006 Streszczenie W artykule analizowane są właściwości

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8 Stanisław Cichocki Natalia Nehrebecka Zajęcia 8 1. Testy diagnostyczne 2. Testowanie prawidłowości formy funkcyjnej modelu 3. Testowanie normalności składników losowych 4. Testowanie stabilności parametrów

Bardziej szczegółowo

Jak długo żyją spółki na polskiej giełdzie? Zastosowanie statystycznej analizy przeżycia do modelowania upadłości przedsiębiorstw

Jak długo żyją spółki na polskiej giełdzie? Zastosowanie statystycznej analizy przeżycia do modelowania upadłości przedsiębiorstw Jak długo żyją spółki na polskiej giełdzie? Zastosowanie statystycznej analizy przeżycia do modelowania upadłości przedsiębiorstw dr Karolina Borowiec-Mihilewicz Uniwersytet Ekonomiczny we Wrocławiu Zastosowania

Bardziej szczegółowo

MODELE LINIOWE. Dr Wioleta Drobik

MODELE LINIOWE. Dr Wioleta Drobik MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Regresja i Korelacja

Regresja i Korelacja Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: drzewa grubsze są z reguły wyższe, drewno iglaste o węższych słojach ma większą gęstość, impregnowane

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom

Bardziej szczegółowo

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych. Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą

Bardziej szczegółowo

Ważne rozkłady i twierdzenia c.d.

Ważne rozkłady i twierdzenia c.d. Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby

Bardziej szczegółowo

Przedmiot statystyki. Graficzne przedstawienie danych.

Przedmiot statystyki. Graficzne przedstawienie danych. Przedmiot statystyki. Graficzne przedstawienie danych. dr Mariusz Grządziel 23 lutego 2009 Przedmiot statystyki Statystyka dzieli się na trzy części: -zbieranie danych; -opracowanie i kondensacja danych

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Egzamin / zaliczenie na ocenę*

Egzamin / zaliczenie na ocenę* Zał. nr do ZW /01 WYDZIAŁ / STUDIUM KARTA PRZEDMIOTU Nazwa w języku polskim Identyfikacja systemów Nazwa w języku angielskim System identification Kierunek studiów (jeśli dotyczy): Inżynieria Systemów

Bardziej szczegółowo

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych

Bardziej szczegółowo

KLASYFIKACJA. Słownik języka polskiego

KLASYFIKACJA. Słownik języka polskiego KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu

Bardziej szczegółowo

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora

Bardziej szczegółowo

Propensity score matching (PSM)

Propensity score matching (PSM) Propensity score matching (PSM) Jerzy Mycielski Uniwersytet Warszawski Maj 2010 Jerzy Mycielski (Uniwersytet Warszawski) Propensity score matching (PSM) Maj 2010 1 / 18 Badania ewaluacyjne Ocena wpływu

Bardziej szczegółowo

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 5 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.medexp3.dta przygotuj model regresji kwantylowej 1. Przygotuj model regresji kwantylowej w którym logarytm wydatków

Bardziej szczegółowo

Wykład 9 Testy rangowe w problemie dwóch prób

Wykład 9 Testy rangowe w problemie dwóch prób Wykład 9 Testy rangowe w problemie dwóch prób Wrocław, 18 kwietnia 2018 Test rangowy Testem rangowym nazywamy test, w którym statystyka testowa jest konstruowana w oparciu o rangi współrzędnych wektora

Bardziej szczegółowo

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych

Bardziej szczegółowo

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący

Bardziej szczegółowo

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)

Bardziej szczegółowo

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy

Bardziej szczegółowo

Regresja nieparametryczna series estimator

Regresja nieparametryczna series estimator Regresja nieparametryczna series estimator 1 Literatura Bruce Hansen (2018) Econometrics, rozdział 18 2 Regresja nieparametryczna Dwie główne metody estymacji Estymatory jądrowe Series estimators (estymatory

Bardziej szczegółowo

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI Zał. nr 4 do ZW WYDZIAŁ ELEKTRONIKI KARTA PRZEDMIOTU Nazwa w języku polskim STATYSTYKA MATEMATYCZNA (EiT stopień) Nazwa w języku angielskim Mathematical Statistics Kierunek studiów (jeśli dotyczy): Specjalność

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

Statystyka i Analiza Danych

Statystyka i Analiza Danych Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania wybranych technik regresyjnych do modelowania współzależności zjawisk Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki

Bardziej szczegółowo

Statystyka matematyczna i ekonometria

Statystyka matematyczna i ekonometria Statystyka matematyczna i ekonometria prof. dr hab. inż. Jacek Mercik B4 pok. 55 jacek.mercik@pwr.wroc.pl (tylko z konta studenckiego z serwera PWr) Konsultacje, kontakt itp. Strona WWW Elementy wykładu.

Bardziej szczegółowo

Analiza regresji - weryfikacja założeń

Analiza regresji - weryfikacja założeń Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.

Bardziej szczegółowo

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Wykład 4: Wnioskowanie statystyczne Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Idea wnioskowania statystycznego Celem analizy statystycznej nie jest zwykle tylko

Bardziej szczegółowo

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Algorytmy metaheurystyczne Wykład 11. Piotr Syga Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,

Bardziej szczegółowo

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę

Bardziej szczegółowo

Wykorzystanie testu Levene a i testu Browna-Forsythe a w badaniach jednorodności wariancji

Wykorzystanie testu Levene a i testu Browna-Forsythe a w badaniach jednorodności wariancji Wydawnictwo UR 2016 ISSN 2080-9069 ISSN 2450-9221 online Edukacja Technika Informatyka nr 4/18/2016 www.eti.rzeszow.pl DOI: 10.15584/eti.2016.4.48 WIESŁAWA MALSKA Wykorzystanie testu Levene a i testu Browna-Forsythe

Bardziej szczegółowo

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa Diagnostyka i niezawodność robotów Laboratorium nr 4 Modelowanie niezawodności prostych struktur sprzętowych Prowadzący: mgr inż. Marcel Luzar Cel

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wprowadzenie

Testowanie hipotez statystycznych. Wprowadzenie Wrocław University of Technology Testowanie hipotez statystycznych. Wprowadzenie Jakub Tomczak Politechnika Wrocławska jakub.tomczak@pwr.edu.pl 10.04.2014 Pojęcia wstępne Populacja (statystyczna) zbiór,

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba

Bardziej szczegółowo

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa Diagnostyka i niezawodność robotów Laboratorium nr 6 Model matematyczny elementu naprawialnego Prowadzący: mgr inż. Marcel Luzar Cele ćwiczenia:

Bardziej szczegółowo

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności: Zadania ze statystyki cz. 7. Zad.1 Z populacji wyłoniono próbę wielkości 64 jednostek. Średnia arytmetyczna wartość cechy wyniosła 110, zaś odchylenie standardowe 16. Należy wyznaczyć przedział ufności

Bardziej szczegółowo

5. Analiza dyskryminacyjna: FLD, LDA, QDA

5. Analiza dyskryminacyjna: FLD, LDA, QDA Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną

Bardziej szczegółowo

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO Zał. nr 4 do ZW WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO KARTA PRZEDMIOTU Nazwa w języku polskim STATYSTYKA STOSOWANA Nazwa w języku angielskim APPLIED STATISTICS Kierunek studiów (jeśli dotyczy): Specjalność

Bardziej szczegółowo

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

Zadania ze statystyki, cz.6

Zadania ze statystyki, cz.6 Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematyczna Anna Janicka wykład IX, 25.04.2016 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Plan na dzisiaj 1. Hipoteza statystyczna 2. Test statystyczny 3. Błędy I-go i II-go rodzaju 4. Poziom istotności,

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

Projekt Sieci neuronowe

Projekt Sieci neuronowe Projekt Sieci neuronowe Chmielecka Katarzyna Gr. 9 IiE 1. Problem i dane Sieć neuronowa miała za zadanie nauczyć się klasyfikować wnioski kredytowe. W projekcie wykorzystano dane pochodzące z 110 wniosków

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

doc. dr Beata Pułska-Turyna Zarządzanie B506 mail: mgr Piotr J. Gadecki Zakład Badań Operacyjnych Zarządzania B 505.

doc. dr Beata Pułska-Turyna Zarządzanie B506 mail: mgr Piotr J. Gadecki Zakład Badań Operacyjnych Zarządzania B 505. doc. dr Beata Pułska-Turyna Zakład Badań Operacyjnych Zarządzanie B506 mail: turynab@wz.uw.edu.pl mgr Piotr J. Gadecki Zakład Badań Operacyjnych Zarządzania B 505. Tel.: (22)55 34 144 Mail: student@pgadecki.pl

Bardziej szczegółowo

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:

Bardziej szczegółowo

Transformacja wiedzy w budowie i eksploatacji maszyn

Transformacja wiedzy w budowie i eksploatacji maszyn Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces

Bardziej szczegółowo

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI WYDZIAŁ GEOINŻYNIERII, GÓRNICTWA I GEOLOGII KARTA PRZEDMIOTU Nazwa w języku polskim: Statystyka matematyczna Nazwa w języku angielskim: Mathematical Statistics Kierunek studiów (jeśli dotyczy): Górnictwo

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

Wprowadzenie. Data Science Uczenie się pod nadzorem

Wprowadzenie. Data Science Uczenie się pod nadzorem Wprowadzenie Wprowadzenie Wprowadzenie Wprowadzenie Machine Learning Mind Map Historia Wstęp lub uczenie się z przykładów jest procesem budowy, na bazie dostępnych danych wejściowych X i oraz wyjściowych

Bardziej szczegółowo

Regresyjne metody łączenia klasyfikatorów

Regresyjne metody łączenia klasyfikatorów Regresyjne metody łączenia klasyfikatorów Tomasz Górecki, Mirosław Krzyśko Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza XXXV Konferencja Statystyka Matematyczna Wisła 7-11.12.2009

Bardziej szczegółowo

Mail: Pokój 214, II piętro

Mail: Pokój 214, II piętro Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak 1 Wprowadzenie. Zmienne losowe Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy

Bardziej szczegółowo

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Testowanie hipotez statystycznych Hipotezą statystyczną jest dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Prawdziwość tego przypuszczenia

Bardziej szczegółowo

Wydział Matematyki. Testy zgodności. Wykład 03

Wydział Matematyki. Testy zgodności. Wykład 03 Wydział Matematyki Testy zgodności Wykład 03 Testy zgodności W testach zgodności badamy postać rozkładu teoretycznego zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

TESTOWANIE HIPOTEZ STATYSTYCZNYCH TETOWANIE HIPOTEZ TATYTYCZNYCH HIPOTEZA TATYTYCZNA przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Prawdziwość tego przypuszczenia jest oceniana na

Bardziej szczegółowo

Natalia Neherbecka. 11 czerwca 2010

Natalia Neherbecka. 11 czerwca 2010 Natalia Neherbecka 11 czerwca 2010 1 1. Konsekwencje heteroskedastyczności i autokorelacji 2. Uogólniona MNK 3. Stosowalna Uogólniona MNK 4. Odporne macierze wariancji i kowariancji b 2 1. Konsekwencje

Bardziej szczegółowo

Prawdopodobieństwo czerwonych = = 0.33

Prawdopodobieństwo czerwonych = = 0.33 Temat zajęć: Naiwny klasyfikator Bayesa a algorytm KNN Część I: Naiwny klasyfikator Bayesa Naiwny klasyfikator bayerowski jest prostym probabilistycznym klasyfikatorem. Naiwne klasyfikatory bayesowskie

Bardziej szczegółowo