Algorytm k-średnich. Źródło: LaroseD.T., Okrywanie wiedzy w danych.wprowadzenie do eksploracji danych, PWN, Warszawa 2005.
|
|
- Kazimierz Krupa
- 7 lat temu
- Przeglądów:
Transkrypt
1 Algorytm k-średnich Źródło: LaroseD.T., Okrywanie wiedzy w danych.wprowadzenie do eksploracji danych, PWN, Warszawa 005.
2 Dane a b c d e f g h (,3) (3,3) (4,3) (5,3) (,) (4,) (,) (,)
3 Algorytm k-średnich KROK. Zapytaj decydenta na ile klas podzielić zbiór danych.
4 Dane a b c d e f g h (,3) (3,3) (4,3) (5,3) (,) (4,) (,) (,) k
5 KROK. Wybierz losowo k-rekordów jako początkowe centra klas.
6 a b c d e f g h (,3) (3,3) (4,3) (5,3) (,) (4,) (,) (,) k Centra klas
7 KROK 3 (przebieg ). Dla każdego rekordu, znajdź najbliższe centrum: n n n m i n k k x i, xi,..., xri, n i k n i k i Mówimy, że każde centrum skupia pewien podzbiór danych, tym samym tworząc podział całego zbioru danych. Otrzymujemy w ten sposób kklasc,c,,c k. k k
8 a b c d e f g h (,3) (3,3) (4,3) (5,3) (,) (4,) (,) (,) Punkt Odległość od m(, ) Odległość od m(, ) a,00,4 C b,83,4 C c 3,6,83 C d 4,47 3,6 C e,00,4 C f 3,6,4 C g 0,00,00 C h,00 0,00 C klasy C{a(,3), e(,), g(,)} Najbliższe centrum centrum m(, ) m(, ) C{b(3,3), c(4,3), d(5,3), f(4,), h(,)
9 3,5 3,5,5 0, Klasy C{a(,3), e(,), g(,)} C{b(3,3), c(4,3), d(5,3), f(4,), h(,)}
10 Kryterium homogeniczności BCV WCV max gdzie: BSV d ( m m ) WCV SSE, wariancja między klasami k i p C i d ( p, m ) i wariancja wewnątrz klas
11 Punkt Kryterium homogeniczności Odległość od m(,) Odległość od m(,) Najbliższe centrum a,00,4 C b,83,4 C c 3,6,83 C d 4,47 3,6 C e,00,4 C f 3,6,4 C g 0,00,00 C h,00 0,00 C BSV d ( m, m ) WCV SSE k i p C i d ( p, m ) i BCV WCV
12 KROK 4 (pierwszy przebieg). Dla każdej klasy znajdź nowe centrum.
13 3,5 3,5,5 0, Klasy Centra C{a(,3), e(,), g(,)} m((++)/3, (3++)/3)(, ) C{b(3,3), c(4,3), d(5,3), f(4,), h(,)} m(( )/5, ( )/5))(3.6,.4)
14 KROK 5. Powtarzaj kroki 3-5 aż do spełnienia kryterium stopu.
15 KROK 3 (drugi przebieg). Dla każdego rekordu, znajdź najbliższe centrum: n n n m i n k k x i, xi,..., xri, n i k n i k i Każde centrum skupia pewien podzbiór danych (najbliższych rekordów), tym samym tworząc podział całego zbioru danych. Otrzymujemy w ten sposób kklasc,c,,c k. k k
16 a b c d e f g h (,3) (3,3) (4,3) (5,3) (,) (4,) (,) (,) Punkt Odległość od m(, ) Odległość od m(3.6,.4) a C b C c C d 4..5 C e C f C g C h.4.3 C Najbliższe centrum Nowe centra m(, ) m(3.6,.4) Nowe klasy C{a(,3), e(,), g(,), h(,)} C{b(3,3), c(4,3), d(5,3), f(4,)}
17 3,5 3,5,5 0, Klasy C{a(,3), e(,), g(,), h(,)} C{b(3,3), c(4,3), d(5,3), f(4,)}
18 Kryterium Punkt Odległość od m(, ) Odległość od m(3.6,.4) Najbliższe centrum a C b C c C d 4..5 C e C f C g C BCV WCV + BCV WCV 0.85 h.4.3 C d ( m, m ) SSE k.63 i p C > i + d 0 ( p, m ) + i ( pierwszyprzebieg) 7.88
19 KROK 4 (drugi przebieg). Dla każdej klasy znajdź nowe centrum.
20 3,5 3,5,5 0, Klasy C{a(,3), e(,), g(,), h(,)} m((+++)/4, (3+++)/4)(.5,.75) C{b(3,3), c(4,3), d(5,3), f(4,)} m(( )/4, (3+3+3)/4)(4.00,.75)
21 KROK 5. Powtarzaj kroki 3-5 aż do spełnienia kryterium stopu.
22 KROK 3 (trzeci przebieg). Dla każdego rekordu, znajdź najbliższe centrum: n n n m i n k k x i, xi,..., xri, n i k n i k i Każde centrum skupia pewien podzbiór danych (najbliższych rekordów), tym samym tworząc podział całego zbioru danych. Otrzymujemy w ten sposób kklasc,c,,c k. k k
23 a b c d e f g h (,3) (3,3) (4,3) (5,3) (,) (4,) (,) (,) Punkt Odległość od m(.5,.75) Odległość od m(4,.75) a C b.5.03 C c C d C e C f C g C h C Nowe klasy C{a(,3), e(,), g(,), h(,)} C{b(3,3), c(4,3), d(5,3), f(4,)} Najbliższe centrum Nowe centra m(.5,.75) m(4.00,.75)
24 3,5 3,5,5 0, Classes C{a(,3), e(,), g(,), h(,)} C{b(3,3), c(4,3), d(5,3), f(4,)}
25 Kryterium Punkt Odległość od m(.5,.75) Odległosć od m(4.00,.75) a C Najbliższe centrum b.5.03 C c C d C e C f C g C h C BCV d ( m, m ).93 WCV SSE k i p C i d ( p, m ) i BCV WCV > (drugiprzebieg)
26 KROK 4 (trzeci przebieg). Dla każdej klasy znajdź nowe centrum.
27 3,5 3,5,5 0, Klasy Te same centra- STOP C{a(,3), e(,), g(,), h(,)} m((+++)/4, (3+++)/4)(.5,.75) C{b(3,3), c(4,3), d(5,3), f(4,)} m(( )/4, (3+3+3)/4)(4.00,.75)
28 KROK 5. Powtarzaj kroki 3 i 5 aż do spełnienia kryterium stopu. Ponieważ centra nie zmieniły się -> STOP
29 Kryteria stopu dla ustalonego k ) Takie same centra w kolejnym kroku. )Mała zmiana funkcji kryterium BCV WCV BCV WCV ( l + ) ( l) < ε
30 Kryterium wyboru k min SSE k i p C i d ( p, m ) i
31 Przykład Imię Wzrost Rozmiar buta Płeć Płeć (0,) Zenek M Joanna 73 4 F 0 3 Paulina 7 39 F 0 4 Martina 8 4 F 0 5 Ola F 0 6 Marcel 7 4 M 7 Ewa F 0 8 Ola 8 4 F 0 9 Paulina F 0 0 Ewelina F 0 Magda F 0 Michał 75 4 M 3 Magda F 0
32 Struktura klas (k) Struktura klas Obserwacja Imię Klasa Odległość Zenek 4,979 Joanna 3,0 3 Paulina 4,535 4 Martina 5,089 5 Ola 0,79 6 Marcel 4,5 7 Ewa 6,374 8 Ola 5,089 9 Paulina 4,809 0 Ewelina,06 Magda,60 Michał,495 3 Magda 3,74
33 Finalne centra Klasa Wzrost Rozmiar buta 4 36 Płeć 0 0
34 ANOVA H 0 : µ µ... µ k H : Co najmniej jedna średnia jest różna Wszystkie średnie są równe F MSTr MSE wariancja wariancja miedzyklasowa bledu losowego F- Snedecor(k-,n-k) H 0 H
35 SSE k n ( i x ) ij xi i j MSE SSE n k SSTr k i n i ( x x ) i MSTr SSTr k
36 ANOVA ANOVA Cluster Error F Sig. Mean Square(MSTr) df Mean Square(MSE) df Wzrost 450,73 5,886 8,337 0,000 in Rozmiar buta 65,438,694 4,86 0,000 Płeć 0,308 0,8,69 0,0 zmienna nieistotna The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences amongcases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.
37 Struktura klas (k) Przynależność klasowa Rozmiar klasy Imię Klasa Odległość Zenek 4,934 Joanna 3,00 3 Paulina 4,53 4 Martina 5,078 5 Ola 0,79 6 Marcel 4,098 7 Ewa 6,374 8 Ola 5,078 9 Paulina 4,809 0 Ewelina,06 Magda, Michał,338 3 Magda 3,699
38 Finalne klasy Klasa Wzrost Rozmiar buta 4 36
39 ANOVA Cluster Error F Sig. Mean Square df Mean Square df Wzrost 450,73 5,886 8,337,000 Rozmiar buta 65,438,694 4,86,000 The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal. wszystkie zmienne istotne
40 Factor Analysis Name High Shoe Number Sex0 Zenek Joanna Paulina Martina Ola Marcel Ewa Ola Paulina Ewelina Magda Michał Magda
41 Factor Analysis dimensions reduction Total Variance Explained Component Initial Eigenvalues Extraction Sums of Squared Loadings Total % of Variance Cumulative % Total % of Variance Cumulative %,0 74,00 74,00,0 74,00 74,00 0,736 4,50 98,5 3 0,044,478 00,000 Extraction Method: Principal Component Analysis.
42 Correlation coefficients Component Matrix a Component Hight 0,87 SchoeNo 0,984 Sex0 0,70 Extraction Method: Principal Component Analysis. a. components extracted.
43 Claster Claster - -,5 - -0,5 0 0,5,5 Component
44 Total Variance Explained Component Initial Eigenvalues Extraction Sums of Squared Loadings Total % of Variance Cumulative % Total % of Variance Cumulative %,0 74,00 74,00,0 74,00 74,00 0,736 4,50 98,5,736 4,50 98,5 3 0,044,478 00,000 Extraction Method: Principal Component Analysis.
45
46 Składowe główne Name Składowa Składowa Zenek, ,80384 Joanna 0,007-0,64837 Paulina -0,675-0,4754 Martina 0,6950 -,4030 Ola -,7507 0,363 Marcel 0,955,6004 Ewa -,7358,0867 Ola 0,6950 -,4030 Paulina -0, ,0358 Ewelina -,0764 0,37 Magda 0,0795-0,8737 Michał,08847,3335 Magda -0,358-0,665
47 Component Matrix a Component Hight 0,87 -,473 SchoeNo 0,984 -,087 Sex0 0,70 0,70 Extraction Method: Principal Component Analysis. a. components extracted.
48 Składowe główne Name Składowa Składowa Klasa Zenek, ,80384 Joanna 0,007-0,64837 Paulina -0,675-0,4754 Martina 0,6950 -,4030 Ola -,7507 0,363 Marcel 0,955,6004 Ewa -,7358,0867 Ola 0,6950 -,4030 Paulina -0, ,0358 Ewelina -,0764 0,37 Magda 0,0795-0,8737 Michał,08847,3335 Magda -0,358-0,665
49 Klasa,5 Skladowa Klasa 0,5 Składowa 0 - -,5 - -0,5 0 0,5,5 Claster Claster -0,5 - -,5 -
Analiza wariancji. Źródło: Aczel A. D. Statystyka w zarządzaniu. Barbara Gładysz
Analiza wariancji Źródło: Aczel A. D. Statystyka w zarządzaniu Analiza wariancji jednoczynnikowa Populacja Pole trójkąty 1 4 5 3 7 4 8 kwadraty 1 10 11 3 1 4 13 kółka 1 1 3 3 Populacja Pole trójkąty 1
Bardziej szczegółowoAnaliza wariancji. Źródło: Aczel A. D. Statystyka w zarządzaniu. Barbara Gładysz
Analiza wariancji Źródło: Aczel A. D. Statystyka w zarządzaniu Analiza wariancji jednoczynnikowa Populacja Pole trójkąty 4 5 3 7 4 8 kwadraty 0 3 4 3 kółka 3 3 Populacja Pole trójkąty 4 5 3 7 4 8 SUMA
Bardziej szczegółowoRozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów
Rozpoznawanie twarzy metodą PCA Michał Bereta www.michalbereta.pl 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów Wiemy, że możemy porównywad klasyfikatory np. za pomocą kroswalidacji.
Bardziej szczegółowoKORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona
KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y 2. Współczynnik korelacji Pearsona 3. Siła i kierunek związku między zmiennymi 4. Korelacja ma sens, tylko wtedy, gdy związek między zmiennymi
Bardziej szczegółowo(LMP-Liniowy model prawdopodobieństwa)
OGÓLNY MODEL REGRESJI BINARNEJ (LMP-Liniowy model prawdopodobieństwa) Dla k3 y α α α α + x + x + x 2 2 3 3 + α x x α x x + α x x + α x x + ε + x 4 2 5 3 6 2 3 7 2 3 Zał.: Wszystkie zmienne interakcyjne
Bardziej szczegółowoElementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Bardziej szczegółowoJEDNOCZYNNIKOWA ANALIZA WARIANCJI, ANOVA 1
Powtórzenie: ANOVA 1 JEDNOCZYNNIKOWA ANALIZA WARIANCJI, ANOVA 1 Obserwowana (badana) cecha Y Czynnik wpływający na Y (badany) A A i i ty poziom czynnika A (i=1..a), n i liczba powtórzeń w i tej populacji
Bardziej szczegółowoWprowadzenie do programu RapidMiner, część 5 Michał Bereta
Wprowadzenie do programu RapidMiner, część 5 Michał Bereta www.michalbereta.pl 1. Przekształcenia atrybutów (ang. attribute reduction / transformation, feature extraction). Zamiast wybierad częśd atrybutów
Bardziej szczegółowo1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe
Zjazd 7. SGGW, dn. 28.11.10 r. Matematyka i statystyka matematyczna Tematy 1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe nna Rajfura 1 Zagadnienia Przykład porównania wielu obiektów w
Bardziej szczegółowoPrawdopodobieństwo i statystyka
Wykład XV: Zagadnienia redukcji wymiaru danych 2 lutego 2015 r. Standaryzacja danych Standaryzacja danych Własności macierzy korelacji Definicja Niech X będzie zmienną losową o skończonym drugim momencie.
Bardziej szczegółowoAutor: Dariusz Piwczyński 1 Ćwiczenie. Analiza zmienności złożona. Testy wielokrotnych porównań
Autor: Dariusz Piwczyński 1 Ćwiczenie. Analiza zmienności złożona. Testy wielokrotnych porównań Analizę wariancji możemy wykonać w SAS za pomocą procedury ANOVA oraz GLM. ANOVA Analysis of variance (Analiza
Bardziej szczegółowoStatystyka i eksploracja danych
Wykład XII: Zagadnienia redukcji wymiaru danych 12 maja 2014 Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X ). Definicja
Bardziej szczegółowoRozwiązanie: MSFA MSAB
Zadanie 1: Skompletuj poniższą tablicę analizy wariancji dwutorowej. Źródło SS? Wariancja? A 1828,09 2 MSFA=914,045? B 1102,34 3 =367,447 17,09? 88,91??? Błąd? 12??? 3277,34 23?? Rozwiązanie powyższego
Bardziej szczegółowoKLASYFIKACJA. Słownik języka polskiego
KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu
Bardziej szczegółowoPAKIETY STATYSTYCZNE
. Wykład wstępny PAKIETY STATYSTYCZNE 2. SAS, wprowadzenie - środowisko Windows, Linux 3. SAS, elementy analizy danych edycja danych 4. SAS, elementy analizy danych regresja liniowa, regresja nieliniowa
Bardziej szczegółowoStatystyka w analizie i planowaniu eksperymentu
28 marca 2012 Analiza wariancji klasyfikacja jednokierunkowa - wst ep Przypuśćmy, że chcemy porównać wieksz a (niż dwie) liczbe grup. Aby porównać średnie w kilku grupach, można przeprowadzić analize wariancji.
Bardziej szczegółowoMatematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 11 DOŚWIADCZENIE JEDNOCZYNNIKOWE W UKŁADZIE CAŁKOWICIE LOSOWYM PORÓWNANIA SZCZEGÓŁOWE
WYKŁAD 11 DOŚWIADCZENIE JEDNOCZYNNIKOWE W UKŁADZIE CAŁKOWICIE LOSOWYM PORÓWNANIA SZCZEGÓŁOWE Było: Przykład. W doświadczeniu polowym załoŝonym w układzie całkowicie losowym w czterech powtórzeniach porównano
Bardziej szczegółowoMatematyka i statystyka matematyczna dla rolników w SGGW
Było: Testowanie hipotez (ogólnie): stawiamy hipotezę, wybieramy funkcję testową f (test statystyczny), przyjmujemy poziom istotności α; tym samym wyznaczamy obszar krytyczny testu (wartość krytyczną funkcji
Bardziej szczegółowoWeronika Mysliwiec, klasa 8W, rok szkolny 2018/2019
Poniższy zbiór zadań został wykonany w ramach projektu Mazowiecki program stypendialny dla uczniów szczególnie uzdolnionych - najlepsza inwestycja w człowieka w roku szkolnym 2018/2019. Tresci zadań rozwiązanych
Bardziej szczegółowoElementy statystyki STA - Wykład 5
STA - Wykład 5 Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza 1 ANOVA 2 Model jednoczynnikowej analizy wariancji Na model jednoczynnikowej analizy wariancji możemy traktować jako uogólnienie
Bardziej szczegółowoMetoda najmniejszych kwadratów
Własności algebraiczne Model liniowy Zapis modelu zarobki = β 0 + β 1 plec + β 2 wiek + ε Oszacowania wartości współczynników zarobki = b 0 + b 1 plec + b 2 wiek + e Model liniowy Tabela: Oszacowania współczynników
Bardziej szczegółowoS t a t y s t y k a, część 3. Michał Żmihorski
S t a t y s t y k a, część 3 Michał Żmihorski Porównanie średnich -test T Założenia: Zmienne ciągłe (masa, temperatura) Dwie grupy (populacje) Rozkład normalny* Równe wariancje (homoscedasticity) w grupach
Bardziej szczegółowoMachine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering
Machine Learning for Data Science (CS4786) Lecture 11 Spectral Embedding + Clustering MOTIVATING EXAMPLE What can you say from this network? MOTIVATING EXAMPLE How about now? THOUGHT EXPERIMENT For each
Bardziej szczegółowoHelena Boguta, klasa 8W, rok szkolny 2018/2019
Poniższy zbiór zadań został wykonany w ramach projektu Mazowiecki program stypendialny dla uczniów szczególnie uzdolnionych - najlepsza inwestycja w człowieka w roku szkolnym 2018/2019. Składają się na
Bardziej szczegółowoAnaliza wariancji - ANOVA
Analiza wariancji - ANOVA Analiza wariancji jest metodą pozwalającą na podział zmienności zaobserwowanej wśród wyników eksperymentalnych na oddzielne części. Każdą z tych części możemy przypisać oddzielnemu
Bardziej szczegółowoMetoda największej wiarygodności
Rozdział Metoda największej wiarygodności Ogólnie w procesie estymacji na podstawie prób x i (każde x i może być wektorem) wyznaczamy parametr λ (w ogólnym przypadku również wektor) opisujący domniemany
Bardziej szczegółowoAnalizy czynnikowe. Założenia. Po co nam analiza czynnikowa?
Założenia Minimum 10 zmiennych Minimum 100 obserwacji, 10:15 na każdą zmienną Każda zmienna skorelowana z czynnikiem Ponieważ FA jest częścią GLM, to zależności liniowe danych ilościowych Odchylenia standardowa
Bardziej szczegółowoMachine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis
Machine Learning for Data Science (CS4786) Lecture11 5 Random Projections & Canonical Correlation Analysis The Tall, THE FAT AND THE UGLY n X d The Tall, THE FAT AND THE UGLY d X > n X d n = n d d The
Bardziej szczegółowoAnaliza głównych składowych- redukcja wymiaru, wykł. 12
Analiza głównych składowych- redukcja wymiaru, wykł. 12 Joanna Jędrzejowicz Instytut Informatyki Konieczność redukcji wymiaru w eksploracji danych bazy danych spotykane w zadaniach eksploracji danych mają
Bardziej szczegółowoWykład: Założenia analizy wariancji. Analiza wariancji złożona i testy wielokrotnych porównań.
Wykład: Założenia analizy wariancji. Analiza wariancji złożona i testy wielokrotnych porównań. Założenia analizy wariancji: Niezależność zmiennych objaśniających (czynników). Homogeniczność wariancji (równość
Bardziej szczegółowoEkonometria dla IiE i MSEMat Z7
Ekonometria dla IiE i MSEMat Z7 Rafał Woźniak Faculty of Economic Sciences, University of Warsaw Warszawa, 21-11-2016 Na podstawie zbioru danych cps_small.dat z książki Principles of Econometrics oszacowany
Bardziej szczegółowo140, , ,000 80, ROK
140,000 PRODUKCJA 120,000 100,000 80,000 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 ROK 130,000 120,000 PRODUKCJA 110,000 100,000 90,000 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008
Bardziej szczegółowoWIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Test zgodności i analiza wariancji Analiza wariancji Test zgodności Chi-kwadrat Sprawdza się za jego pomocą ZGODNOŚĆ ROZKŁADU EMPIRYCZNEGO Z PRÓBY Z ROZKŁADEM HIPOTETYCZNYM
Bardziej szczegółowoALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza
Bardziej szczegółowoProblem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015
Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015 Problem dwóch prób X = (X 1, X 2,..., X n ) - próba z rozkładu normalnego N (µ, σ 2 X ),
Bardziej szczegółowoNowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy
Projekt Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy Dane: 2000 największych spółek światowych z 2004 (Forbes Magazine)
Bardziej szczegółowoModele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3
Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3 Konrad Miziński, nr albumu 233703 26 maja 2015 Zadanie 1 Wartość krytyczna c, niezbędna wyliczenia mocy testu (1 β) wyznaczono za
Bardziej szczegółowoZastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Sieci Kohonena Sieci Kohonena Sieci Kohonena zostały wprowadzone w 1982 przez fińskiego
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka. Wykład 4
Stanisław Cichocki Natalia Nehrebecka Wykład 4 1 1. Własności hiperpłaszczyzny regresji 2. Dobroć dopasowania równania regresji. Współczynnik determinacji R 2 Dekompozycja wariancji zmiennej zależnej Współczynnik
Bardziej szczegółowoKatedra Genetyki i Podstaw Hodowli Zwierząt Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy
Ćwiczenie: Analiza zmienności prosta Przykład w MS EXCEL Sprawdź czy genotyp jagniąt wpływa statystycznie na cechy użytkowości rzeźnej? Obliczenia wykonaj za pomocą modułu Analizy danych (jaganova.xls).
Bardziej szczegółowoJednoczynnikowa analiza wariancji. Wnioskowanie dla jednoczynnikowej ANOV-y. Porównywanie poszczególnych średnich
(Wykład 13) Jednoczynnikowa analiza wariancji Wnioskowanie dla jednoczynnikowej ANOV-y Format danych Hipotezy i model ANOVA Tabela ANOVA i test F Porównywanie poszczególnych średnich Jednoczynnikowa ANOVA
Bardziej szczegółowoANOVA podstawy analizy wariancji
ANOVA podstawy analizy wariancji Marcin Kolankowski 11 marca 2009 Do czego służy analiza wariancji Analiza wariancji (ang. ANalysis Of VAriance - ANOVA) służy do wykrywania różnic pomiędzy średnimi w wielu
Bardziej szczegółowoW tym rozdziale książka opisuje kilka podejść do poszukiwania kolokacji.
5 Collocations Związek frazeologiczny (kolokacja), to często używane zestawienie słów. Przykłady: strong tea, weapons of mass destruction, make up. Znaczenie całości wyrażenia, nie zawsze wynika ze znaczeń
Bardziej szczegółowoData Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Bardziej szczegółowoZaświadczenie. Nr 41/CB/2012. Niniejszym zaświadczam, iŝ Pan/Pani
Nr 41/CB/2012 Nr 42/CB/2012 Nr 43/CB/2012 Nr 44/CB/2012 Nr 45/CB/2012 Nr 46/CB/2012 Nr 47/CB/2012 Nr 48/CB/2012 Nr 49/CB/2012 Nr 50/CB/2012 Nr 51/CB/2012 Nr 52/CB/2012 Nr 53/CB/2012 Nr 54/CB/2012 Nr 55/CB/2012
Bardziej szczegółowoPrzykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku
Przykład 2 Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku Sondaż sieciowy analiza wyników badania sondażowego dotyczącego motywacji w drodze do sukcesu Cel badania: uzyskanie
Bardziej szczegółowoSTATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie
STATYSTYKA OD PODSTAW Z SYSTEMEM SAS wersja 9.2 i 9.3 Szkoła Główna Handlowa w Warszawie Spis treści Wprowadzenie... 6 1. Podstawowe informacje o systemie SAS... 9 1.1. Informacje ogólne... 9 1.2. Analityka...
Bardziej szczegółowoProposal of thesis topic for mgr in. (MSE) programme in Telecommunications and Computer Science
Proposal of thesis topic for mgr in (MSE) programme 1 Topic: Monte Carlo Method used for a prognosis of a selected technological process 2 Supervisor: Dr in Małgorzata Langer 3 Auxiliary supervisor: 4
Bardziej szczegółowoNatalia Nehrebecka Stanisław Cichocki. Wykład 10
Natalia Nehrebecka Stanisław Cichocki Wykład 10 1 1. Testy diagnostyczne 2. Testowanie prawidłowości formy funkcyjnej modelu 3. Testowanie normalności składników losowych 4. Testowanie stabilności parametrów
Bardziej szczegółowoRegresja liniowa w R Piotr J. Sobczyk
Regresja liniowa w R Piotr J. Sobczyk Uwaga Poniższe notatki mają charakter roboczy. Mogą zawierać błędy. Za przesłanie mi informacji zwrotnej o zauważonych usterkach serdecznie dziękuję. Weźmy dane dotyczące
Bardziej szczegółowoWprowadzenie Modele o opóźnieniach rozłożonych Modele autoregresyjne o opóźnieniach rozłożonych. Modele dynamiczne.
opisują kształtowanie się zjawiska w czasie opisują kształtowanie się zjawiska w czasie Najważniejszymi zastosowaniami modeli dynamicznych są opisują kształtowanie się zjawiska w czasie Najważniejszymi
Bardziej szczegółowoWprowadzenie Testy własności składnika losowego. Diagnostyka modelu. Część 1. Diagnostyka modelu
Część 1 Testy i ich rodzaje Statystyka NR 2 Cel testowania Testy i ich rodzaje Statystyka NR 2 Cel testowania Testy małej próby Testy i ich rodzaje Statystyka NR 2 Cel testowania Testy małej próby Testy
Bardziej szczegółowoStatystyka matematyczna Testowanie hipotez dla średnich w rozkładzie normalnym. Wrocław, r
Statystyka matematyczna Testowanie hipotez dla średnich w rozkładzie normalnym Wrocław, 18.03.2016r Testowanie hipotez dla średniej w rozkładzie normalnym dla jednej próby Model 1 Testowanie hipotez dla
Bardziej szczegółowoANALIZA WIELOPOZIOMOWA JAKO NARZĘDZIE WSPARCIA POLITYK PUBLICZNYCH
ANALIZA WIELOPOZIOMOWA JAKO NARZĘDZIE WSPARCIA POLITYK PUBLICZNYCH - Adrian Gorgosz - Paulina Tupalska ANALIZA WIELOPOZIOMOWA (AW) Multilevel Analysis Obecna od lat 80. Popularna i coraz częściej stosowana
Bardziej szczegółowoMetody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak
Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin Henryk Bujak e-mail: h.bujak@ihar.edu.pl Ocena różnorodności fenotypowej Różnorodność fenotypowa kolekcji roślinnych zasobów
Bardziej szczegółowoSHP / SHP-T Standard and Basic PLUS
Range Features ErP compliant High Pressure Sodium Lamps Long life between 24,000 to 28,000 hours, T90 at 16,000 hours Strong performance with high reliability Car park, Street and Floodlighting applications
Bardziej szczegółowoBudowa modelu i testowanie hipotez
Problemy metodologiczne Gdzie jest problem? Obciążenie Lovella Dysponujemy oszacowaniami parametrów następującego modelu y t = β 0 + β 1 x 1 +... + β k x k + ε t Gdzie jest problem? Obciążenie Lovella
Bardziej szczegółowoKorelacja, autokorelacja, kowariancja, trendy. Korelacja określa stopień asocjacji między zmiennymi
Korelacja, autokorelacja, kowariancja, trendy Korelacja określa stopień asocjacji między zmiennymi Kowariancja Wady - ograniczenia. Wartość kowariancji zależy od rozmiarów zmienności zmiennej.. W konsekwencji
Bardziej szczegółowoProblem równoczesności w MNK
Problem równoczesności w MNK O problemie równoczesności mówimy, gdy występuje korelacja między wartościa oczekiwana ε i i równoczesnym x i Model liniowy y = Xβ + ε, E (u) = 0 Powiedzmy, że występuje w
Bardziej szczegółowoCracow University of Economics Poland. Overview. Sources of Real GDP per Capita Growth: Polish Regional-Macroeconomic Dimensions 2000-2005
Cracow University of Economics Sources of Real GDP per Capita Growth: Polish Regional-Macroeconomic Dimensions 2000-2005 - Key Note Speech - Presented by: Dr. David Clowes The Growth Research Unit CE Europe
Bardziej szczegółowoZastrzegamy sobie prawo do zmiany cen oraz asortymentu bez wcze niejszego zawiadomienia.
Zastrzegamy sobie prawo do zmiany cen oraz asortymentu bez wcze niejszego zawiadomienia. Kod Rozmiar Bie nik LI SI RF FR Opony do samochodów osobowych - seria 80 13" 0362001000 135/80R13 rallye 680 70
Bardziej szczegółowoSzkolenie Microsoft Lync 2010. Korzystanie z roli pełnomocnika
Szkolenie Microsoft Lync 2010 Korzystanie z roli pełnomocnika Cele To szkolenie opisuje poniższe zagadnienia związane z rolą pełnomocnika w zakresie pracy ze spotkaniami online: Ustanawianie pełnomocnika
Bardziej szczegółowoWykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym
Wiesława MALSKA Politechnika Rzeszowska, Polska Anna KOZIOROWSKA Uniwersytet Rzeszowski, Polska Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym Wstęp Wnioskowanie statystyczne
Bardziej szczegółowoModele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4
Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4 Konrad Miziński, nr albumu 233703 31 maja 2015 Zadanie 1 Wartości oczekiwane µ 1 i µ 2 oszacowano wg wzorów: { µ1 = 0.43925 µ = X
Bardziej szczegółowoTesty dla dwóch prób w rodzinie rozkładów normalnych
Testy dla dwóch prób w rodzinie rozkładów normalnych dr Mariusz Grządziel Wykład 12; 18 maja 2009 Przykład Rozważamy dane wygenerowane losowo; ( podobne do danych z przykładu 7.2 z książki A. Łomnickiego)
Bardziej szczegółowoWykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych
Wykład 12 (21.05.07): Testy dla dwóch prób w rodzinie rozkładów normalnych Przykład Rozważamy dane wygenerowane losowo; ( podobne do danych z przykładu 7.2 z książki A. Łomnickiego) n 1 = 9 poletek w dąbrowie,
Bardziej szczegółowoOPTYMALIZACJA LICZBY WARSTW DLA ALOKACJI NEYMANA
Tomasz Bąk Uniwersytet Ekonomiczny w Katowicach OPTYMALIZACJA LICZBY WARSTW DLA ALOKACJI NEYMANA Wprowadzenie Losowanie warstwowe jest często wykorzystywaną w praktyce metodą doboru próby w przypadku estymacji
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka 1 1. Wstęp a) Binarne zmienne zależne b) Interpretacja ekonomiczna c) Interpretacja współczynników 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników
Bardziej szczegółowoCzasowy wymiar danych
Problem autokorelacji Model regresji dla szeregów czasowych Model regresji dla szeregów czasowych y t = X t β + ε t Zasadnicze różnice 1 Budowa prognoz 2 Problem stabilności parametrów 3 Problem autokorelacji
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka. Wykład 14
Stanisław Cichocki Natalia Nehrebecka Wykład 14 1 1.Problemy z danymi Współliniowość 2. Heteroskedastyczność i autokorelacja Konsekwencje heteroskedastyczności i autokorelacji Metody radzenia sobie z heteroskedastycznością
Bardziej szczegółowoU3000/U3100 Mini (Dla Komputera Eee na systemie operacyjnym Linux) Krótka Instrukcja
U3000/U3100 Mini (Dla Komputera Eee na systemie operacyjnym Linux) Krótka Instrukcja ASUS_U3000_U3100_mini.indd 1 2/2/08 4:01:51 PM PL3656 Pierwsza edycja Styczeń 2008 Copyright 2008 ASUSTeK COMPUTER INC.
Bardziej szczegółowoWykład 12 Testowanie hipotez dla współczynnika korelacji
Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 23 maja 2018 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem
Bardziej szczegółowoWykład 12 Testowanie hipotez dla współczynnika korelacji
Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 24 maja 2017 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem
Bardziej szczegółowoKnovel Math: Jakość produktu
Knovel Math: Jakość produktu Knovel jest agregatorem materiałów pełnotekstowych dostępnych w formacie PDF i interaktywnym. Narzędzia interaktywne Knovel nie są stworzone wokół specjalnych algorytmów wymagających
Bardziej szczegółowoSkuteczność oceny plonowania na podstawie doświadczeń polowych z rzepakiem ozimym o różnej liczbie powtórzeń
TOM XXXIII ROŚLINY OLEISTE OILSEED CROPS 2012 Maria Ogrodowczyk Instytut Hodowli i Aklimatyzacji Roślin Państwowy Instytut Badawczy, Oddział w Poznaniu Adres do korespondencji: mogrod@nico.ihar.poznan.pl
Bardziej szczegółowoWykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap
Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Magdalena Frąszczak Wrocław, 21.02.2018r Tematyka Wykładów: Próba i populacja. Estymacja parametrów z wykorzystaniem metody
Bardziej szczegółowoRepeated Measures ANOVA ANOVA z powtarzanymi pomiarami
Repeated Measures ANOVA ANOVA z powtarzanymi pomiarami Plan prezentacji 1 Wprowadzenie 2 Postać modelu Założenia Droga do testu Test Sferyczność 3 Problem Badanie skuteczności pewnej terapii medycznej:
Bardziej szczegółowoCracow University of Economics Poland
Cracow University of Economics Poland Sources of Real GDP per Capita Growth: Polish Regional-Macroeconomic Dimensions 2000-2005 - Keynote Speech - Presented by: Dr. David Clowes The Growth Research Unit,
Bardziej szczegółowoWPŁYW WARUNKÓW TERMICZNO-ŚWIETLNYCH NA CZAS TRWANIA FAZ ROZWOJOWYCH PSZENICY JAREJ. Dr hab. Alicja Sułek Dr Anna Nieróbca
WPŁYW WARUNKÓW TERMICZNO-ŚWIETLNYCH NA CZAS TRWANIA FAZ ROZWOJOWYCH PSZENICY JAREJ Dr hab. Alicja Sułek Dr Anna Nieróbca Celem badań było prześledzenie wpływu warunków termiczno-świetlnych na czas trwania
Bardziej szczegółowoKATARZYNA DOBRZYŃSKA. Przywiązanie do miejsca w warunkach zmiany a tranzycja do dorosłości. cz.4. Analiza wyników własnych.
KATARZYNA DOBRZYŃSKA Przywiązanie do miejsca w warunkach zmiany a tranzycja do dorosłości. cz.4. Analiza wyników własnych. Wnioski 4.1. Statystyki opisowe zmiennej zaleŝnej i zmiennych niezaleŝnych Przed
Bardziej szczegółowoWykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich
Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich Magdalena Frąszczak Wrocław, 22.03.2017r Problem Behrensa Fishera Niech X = (X 1, X 2,..., X n ) oznacza próbę z rozkładu normalnego
Bardziej szczegółowoStatystyka w analizie i planowaniu eksperymentu
19 kwietnia 2011 Testy dla dwóch grup 1 Analiza danych dla dwóch grup: test t-studenta dla dwóch grup sparowanych; test t-studenta dla dwóch grup niezależnych (jednakowe wariancje) test Z dla dwóch grup
Bardziej szczegółowoEksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1
Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie
Bardziej szczegółowoNatalia Nehrebecka Stanisław Cichocki. Wykład 6
Natalia Nehrebecka Stanisław Cichocki Wykład 6 1 1. Zmienne dyskretne Zmienne zero-jedynkowe 2. Modele z interakcjami 2 Zmienne dyskretne Zmienne nominalne Zmienne uporządkowane 3 4 1 podstawowe i 0 podstawowe
Bardziej szczegółowoStatystyczna analiza danych (molekularnych) analiza wariancji ANOVA
Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA Anna Gambin 19 maja 2013 Spis treści 1 Przykład: Model liniowy dla ekspresji genów 1 2 Jednoczynnikowa analiza wariancji 3 2.1 Testy
Bardziej szczegółowoAnaliza wariancji Piotr J. Sobczyk 19 November 2016
Analiza wariancji Piotr J. Sobczyk 19 November 2016 Zacznijmy zajęcia od klasycznego przykładu czyli testu Studenta dla dwóch prób. x 1,i N(µ 1, σ 2 ), i = 1,..., n 1 x 2,i N(µ 2, σ 2 ), i = 1,..., n 2
Bardziej szczegółowoSpis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla
Bogumiła Koprowska Elżbieta Kukla 1 Wstęp Czym są efekty losowe? Przykłady Model mieszany 2 Estymacja Jednokierunkowa klasyfikacja (ANOVA) Metoda największej wiarogodności (ML) Metoda największej wiarogodności
Bardziej szczegółowoWykład 8 Dane kategoryczne
Wykład 8 Dane kategoryczne Wrocław, 19.04.2017r Zmienne kategoryczne 1 Przykłady zmiennych kategorycznych 2 Zmienne nominalne, zmienne ordynalne (porządkowe) 3 Zmienne dychotomiczne kodowanie zmiennych
Bardziej szczegółowoRevenue Maximization. Sept. 25, 2018
Revenue Maximization Sept. 25, 2018 Goal So Far: Ideal Auctions Dominant-Strategy Incentive Compatible (DSIC) b i = v i is a dominant strategy u i 0 x is welfare-maximizing x and p run in polynomial time
Bardziej szczegółowoDobór zmiennych do modelu ekonometrycznego
Dobó zmiennych do modelu ekonometycznego Metody dobou zmiennych do modelu ekonometycznego opate na teście F Model zedukowany ya 0 +a x+a x+.+a x Model pełny ya 0 +a x+a x+.+a x +a + x + + +a k x k Częściowy
Bardziej szczegółowoTesty post-hoc. Wrocław, 6 czerwca 2016
Testy post-hoc Wrocław, 6 czerwca 2016 Testy post-hoc 1 metoda LSD 2 metoda Duncana 3 metoda Dunneta 4 metoda kontrastów 5 matoda Newman-Keuls 6 metoda Tukeya Metoda LSD Metoda Least Significant Difference
Bardziej szczegółowowww.irs.gov/form990. If "Yes," complete Schedule A Schedule B, Schedule of Contributors If "Yes," complete Schedule C, Part I If "Yes," complete Schedule C, Part II If "Yes," complete Schedule C, Part
Bardziej szczegółowoRozdział 8. Regresja. Definiowanie modelu
Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność
Bardziej szczegółowoGOZDOWSKI Dariusz 1 *, ROSZKOWSKA-MĄDRA Barbara 2 ORIGINAL PAPER
ORIGINAL PAPER DETECTION OF SPATIAL OUTLIERS IN RURAL COMMUNES OF PODLASIE PROVINCE (POLAND) ON THE BASIS OF SOCIO-ECONOMIC ATTRIBUTES DETEKCJA JEDNOSTEK NIETYPOWYCH W PRZESTRZENI WŚRÓD GMIN WIEJSKICH
Bardziej szczegółowoOgólny model liniowy
Ogólny model liniowy Twórcy Autor statystyki testowej Wyprowadził wzór na gęstość rozkładu statystyki testowej Ronald Aylmer Fisher ( 1890-1962 ) angielski genetyk George W. Snedecor (1881-1974) amerykański
Bardziej szczegółowoWykład 5 Teoria eksperymentu
Wykład 5 Teoria eksperymentu Wrocław, 22.03.2017r Co to jest teoria eksperymentu? eksperyment - badanie jakiegoś zjawiska polegające na celowym wywołaniu tego zjawiska lub jego zmian oraz obserwacji i
Bardziej szczegółowoEgzamin z ekonometrii - wersja ogólna
Egzamin z ekonometrii - wersja ogólna 06-02-2019 Regulamin egzaminu 1. Egzamin trwa 90 min. 2. Rozwiązywanie zadań należy rozpocząć po ogłoszeniu początku egzaminu a skończyć wraz z ogłoszeniem końca egzaminu.
Bardziej szczegółowoProjekt Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy
Projekt Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy ANALIZA PORÓWNAŃ WIELOKROTNYCH GDY WARIANCJE SĄ NIERÓWNE lsales.bim
Bardziej szczegółowoModel regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago
Model regresji wielokrotnej Wykład 14 (4.06.2007) Przykład ceny domów w Chicago Poniżej są przedstawione dane dotyczące cen domów w Chicago (źródło: Sen, A., Srivastava, M., Regression Analysis, Springer,
Bardziej szczegółowo