Elementy statystyki wielowymiarowej

Podobne dokumenty
Metoda największej wiarygodności

Prawdopodobieństwo i statystyka

Statystyka i eksploracja danych

Analiza kanoniczna w pigułce

Własności statystyczne regresji liniowej. Wykład 4

Analiza składowych głównych

Analiza składowych głównych. Wprowadzenie

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Zmienne zależne i niezależne

KLASYFIKACJA. Słownik języka polskiego

STATYSTYKA MATEMATYCZNA

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Wprowadzenie do analizy korelacji i regresji

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Stosowana Analiza Regresji

Spis treści 3 SPIS TREŚCI

Statystyka matematyczna dla kierunku Rolnictwo w SGGW. BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Ważne rozkłady i twierdzenia c.d.

PDF created with FinePrint pdffactory Pro trial version

Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmienn

Komputerowa Analiza Danych Doświadczalnych

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

POLITECHNIKA OPOLSKA

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

STATYSTYKA MATEMATYCZNA

OPIS MODUŁ KSZTAŁCENIA (SYLABUS)

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Testowanie hipotez statystycznych

Wprowadzenie do analizy dyskryminacyjnej

Czym jest analiza skupień?

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Analiza korespondencji

Skalowanie wielowymiarowe idea

ANALIZA CZYNNIKOWA Przykład 1

Ekonometria I Weryfikacja: współliniowość i normalność. Dr Michał Gradzewicz Szkoła Główna Handlowa w Warszawie

Hierarchiczna analiza skupień

Rozkłady statystyk z próby

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

KORELACJE I REGRESJA LINIOWA

CLUSTERING. Metody grupowania danych

Metodologia badań psychologicznych. Wykład 12. Korelacje

ANALIZA KURSÓW AKCJI Z WYKORZYSTANIEM METODY ICA

STATYSTYKA MATEMATYCZNA

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

JEDNOCZYNNIKOWA ANOVA

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

STATYSTYKA I DOŚWIADCZALNICTWO

Weryfikacja hipotez statystycznych

Wykład 12 Testowanie hipotez dla współczynnika korelacji

STATYSTYKA MATEMATYCZNA

Metoda największej wiarygodności

Przykład 1. (A. Łomnicki)

CELE ANALIZY CZYNNIKOWEJ

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

1. Zbadać liniową niezależność funkcji x, 1, x, x 2 w przestrzeni liniowej funkcji ciągłych na przedziale [ 1, ).

Statystyka i Analiza Danych

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Komputerowa analiza danych doświadczalnych

Analiza wariancji i kowariancji

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Analiza wariancji - ANOVA

10. Redukcja wymiaru - metoda PCA

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

STATYSTYKA

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Analiza współzależności dwóch cech I

Klasyfikacja LDA + walidacja

Transkrypt:

Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych głównych (Principal Components Analysis, PCA) 1.5 Analiza wariancji wielu zmiennych (Multivariate ANalysis of VAriance MANOVA) 1.6 Analiza dyskryminacyjna (Discriminant Analysis ) 1.7 Analiza czynnikowa (Factor Analysis ) 1.8 Analiza skupień Cluster Analysis 1.8.1 Metody polegające na kolejnym łączeniu punktów 1.8.2 Metoda K średnich (K means ) Elementy statystyki wielowymiarowej Przypomnijmy najpierw pojęcia Kowariancja i współczynnik korelacji Przykładowe wartości współczynnika korelacji dla 300 par o różnych stopniach współzależności. Miarą związku między zmiennymi i jest kowariancja

lub unormowany do jedności współczynnik korelacji zmiennych i : gdzie i to odpowiednio wartości oczekiwane zmiennych i. Jeśli zmienne i związane są deterministyczną zależnością liniową (typu ), to ich korelacja wynosi (lub, jeśli ). Jeśli wzrostowi zmiennej towarzyszy statystycznie wzrost zmiennej, to ich korelacja jest dodatnia (pomiędzy a ). Dla zmiennych niezależnych korelacja wynosi. Macierz kowariancji dla i Interpretacja współczynnika korelacji znajduje się pod hasłem Regresja liniowa. Dwumianowy rozkład normalny

Dwumianowy rozkład normalny, wartość prawdopodobieństwa jako wysokość nad płaszczyzną wektor zmiennej losowej stała normalizjąca wektor wartości oczekiwanych odwrotność macierzy kowariancji Analiza składowych głównych (Principal Components Analysis, PCA) Macierz kowariancji przedstawiamy w postaci diagonalnej Wielkości są rozwiązaniami równania a wektor osiami nowego układu

współrzędnych. Składowe PCA są liniowymi kombinacjami obserwowanych zmiennych. Kierunki składowych głównych (PCA) w dwóch wymiarach Analiza wariancji wielu zmiennych (Multivariate ANalysis of VAriance MANOVA) Zmienna losowa opisywana wektorem (, podobnie wartość średnia staje się wektorem o tym samym wymiarze: ( Macierz kowariancji zmiennej losowej gdzie: Zakladamy, że dane pochodzą z wielowymiarowego rozkładu normalnego, opisanego macierzą kowariancji Jeśli pochodzą z próby podzielonej na grupy, to podobnie jak w ANOVA możemy skonstruować macierze wariancji wewnątrzgrupowych i międzygrupowych i dowieść, że. Testujemy hipotezę o równości średnich w grupach

Jako statystykę testową możemy wtbrać np. iloraz wyznaczników macierzy rozkładowi Wilksa: i, który podlega Analiza dyskryminacyjna (Discriminant Analysis ) Wielowymiarowe wektory próby X mamy podzielone na grupy, szukamy funkcji najlepiej je rozdzielającej, która umożliwi zaklasyfikowanie nowej obserwacji. Rozdzielenie grup odpowiada w przypadku jednowymiarowym maksymalizacji stosunku wariancji międzygrupowej do wariancji wewnątrzgrupowej W przypadku wielowymiarowym mamy do czynienia z macierzami kowariancji; możemy rozpatrywać wielkość Maksymalizacja tej wielkości względem a daje wektor własny macierzy odpowiadający największej wartości własnej. Wektory własne odpowiadające kolejnym wartościom własnym zwiemy współrzędnymi dyskryminacyjnymi, tworzącymi przestrzeń dyskryminacyjną. Analiza czynnikowa (Factor Analysis ) opiera się na założeniu istnienia ukrytych czynników, stara się przedstawić obserwowane zmienne w postaci: obserwowana zmienna = liniowa kombinacja czynników + błąd w odróżnieniu od PCA, realizującej model składowa = liniowa kombinacja obserwowanych zmiennych

Analiza skupień Cluster Analysis Wejściem dla tej procedury jest zestaw danych, a wyjściem ich podział na grupy. Można go zrealizować na wiele sposobów: punktów z których każdy opisany jest przez cech. Metody polegające na kolejnym łączeniu punktów Startujemy z N klastrów jednopunktowych, w każdym kroku łączymy najbliższe. Wynikiem działania jest drzewo łączenia, na którym sami musimy wybrać ilość klastrów. Wynik zależy silnie od przyjętych definicji odległości między klastrami oraz definicji odległości między punktami. Odległości między punktami: Odległość Euklidesowa (czuła na różne skale cech). Odległość korelacyjna gdzie (znormalizowana do przedziału (0,2), mniejsza im lepiej skorelowane punkty). Odległości między klastrami: Najbliższego sąsiada (single linkage) - odległość między dwoma najbliższymi elementami klastrów A i B: (complete linkage ) - odległość między dwoma najbliższymi elementami klastrów A i B: (centroid) - odległość między środkami klastrów, (average) - średnia odległości, itd... Metoda K średnich (K means ) Wybieramy ilość klastrów, podział dokonywany jest w iteracyjnej procedurze dążącej do minimalizacji stosunku wariancji pomiędzy klastrami do wariancji wewnątrz klastrów - niejako bez ustalonego wstępnie przyporządkowania, maksimum poszukiwane drogą przemieszczania elementów między klastrami.