WPROWADZENIE ISTOTA ANALIZY KLAS UKRYTYCH RYS HISTORYCZNY ANALIZY KLAS UKRYTYCH KLASYFIKACJA MODELI KLAS UKRYTYCH...

Wielkość: px
Rozpocząć pokaz od strony:

Download "WPROWADZENIE... 3 1. ISTOTA ANALIZY KLAS UKRYTYCH... 4 2. RYS HISTORYCZNY ANALIZY KLAS UKRYTYCH... 5 3. KLASYFIKACJA MODELI KLAS UKRYTYCH..."

Transkrypt

1 SPIS TREŚCI WPROWADZENIE ISTOTA ANALIZY KLAS UKRYTYCH RYS HISTORYCZNY ANALIZY KLAS UKRYTYCH KLASYFIKACJA MODELI KLAS UKRYTYCH PODSTAWOWE ZAŁOŻENIA MODELU KLAS UKRYTYCH. ZAŁOŻENIE LOKALNEJ NIEZALEŻNOŚCI ESTYMACJA MODELU Z WYKORZYSTANIEM METODY NAJWIĘKSZEJ WIARYGODNOŚCI. OGRANICZENIA W ZASTOSOWANIU MNW ZAGADNIENIA SELEKCJI (WYBORU) MODELI KLASYCZNY MODEL KLAS UKRYTYCH DLA WSKAŹNIKÓW JAKOŚCIOWYCH (SKOKOWYCH) OCENA DOPASOWANIA MODELU PRZYKŁADY EMPIRYCZNE Z LITERATURY ZACHODNIEJ I POLSKIEJ PREZENTACJA GRAFICZNA WYNIKÓW ANALIZY ZASTOSOWANIE MODELU UKRYTYCH KLAS NA UŻYTEK PROCESÓW DEMOGRAFICZNYCH WYBRANE PROGRAMY KOMPUTEROWE LITERATURA

2 2

3 WPROWADZENIE Celem niniejszego opracowania jest przedstawienie wybranych zagadnień przedstawionych podczas seminarium szkoleniowego Basic and Advanced Topics in Modelling Generalized Linear Models with Latent Variables. ZA Spring Seminar 2003, które odbyło się w dniach marzec 2003 w Niemczech w Kolonii. Opracowanie nie zamieszcza przykładów własnych. Aplikacje takie są planowane w przyszłości. Tekst bazuje głownie na przykładach prezentowanych podczas szkolenia, jak również przykładzie zaczerpniętym z literatury demograficznej. Celem opracowania jest rozpowszechnianie informacji o nowych metodach i technikach badawczych i ich zastosowaniach. W ostatnich latach opublikowano wiele prac na temat ukrytych zmiennych (Latent Class LC) oraz skończonych mieszanych modeli 1 niż na temat jakichkolwiek innych modeli statystycznych. Ów wzrost zainteresowania w temacie LC spowodowany jest rozwojem zaawansowanych algorytmów komputerowych, które pozwalają dzisiejszym maszynom na przeprowadzenie analizy ukrytych klas na zbiorach danych zawierających więcej niż tylko kilka zmiennych. Co ciekawe, badacze coraz częściej zdają sobie sprawę z tego, że zastosowanie modeli ukrytych klas może dać przewagę nad tradycyjnymi podejściami analizy skupień, czy też analizy czynnikowej. W takich dyscyplinach jak: socjologia, ekonomia czy psychologia do badania zależności, czy związku między badanymi zmiennymi łatwo jest zastosować metody statystyczne, w sytuacji gdy mamy do czynienia z obserwowalnymi cechami mierzalnymi. Problem natomiast pojawia się, gdy w przypadku cech ukrytych, czyli takich, których nie da się bezpośrednio zmierzyć, a ich ocena jest subiektywna. Kolejnym zagadnieniem jest badanie charakteru i siły zależności między cechami niemierzalnymi (ukrytymi). 2 Przykładami zmiennych ukrytych są między innymi: preferencje, nastawienia, intencje zachowań czy cechy osobowości. Takiego rodzaju charakterystyki mogą zostać jedynie zmierzone pośrednio przez średnie obserwowalnych wskaźników; np. poprzez kwestionariusz skonstruowany w taki sposób, by otrzymać odpowiedzi powiązane z nastawieniem, czy preferencjami. Z tego też powodu rozwinięto różne techniki skalowania 1 Pod pojęciem modeli mieszanych rozumie się modele które zawierają zmienne o różnych rozkładach. 2 A. Bartkowiak Analiza struktur ukrytych 22/05/2002, str. 1 3

4 by dostarczyć informacje o nieobserwowalnych cechach używając wskaźników. Przykładem takich technik są modele z ukrytymi zmiennymi (latent class models) ISTOTA ANALIZY KLAS UKRYTYCH Analiza ukrytych klas jest metodą statystyczną służącą do odkrywania podtypów w powiązanych ze sobą wielowymiarowych kategorialnych cech. Ukryta klasa określa pewną abstrakcyjną cechę lub charakterystykę, która nie może być zaobserwowana bezpośrednio. Tak, więc jeśli ukryty konstrukt (construct) ma charakter skokowy, to znaczy cecha jest jakościowa i różnią się warianty w ramach danej zmiennej, to można potraktować każdą cechę jako ukrytą klasę. Podstawową ideą, 4 której podlega analiza ukrytych klas jest bardzo prosta: niektóre parametry w postulowanym statystycznym modelu różnią się, co do ukrytych podgrup. Te podgrupy tworzą warianty ukrytych zmiennych skokowych. Idea, o której była mowa na początku ma kilka pozornie niezwiązanych ze sobą zastosowań, z których najważniejszymi są: clustering, scaling, density estimation oraz random effect modelling. Poza naukami społecznymi modele ukrytych klas odnoszą się często do skończonych modeli mieszanych (finite mixture models). Modele klas ukrytych dostarczają niezwykle ważnego narzędzia do analizy danych wielowymiarowych (D.J. Bartholomew, M. Knott 2002). Modele te oferują ramy modelowe, wewnątrz których wiele ważnych metod może zostać połączonych ale też z których nowe metody mogą być rozwijane. Model statystyczny określa wspólny rozkład zbioru losowych zmiennych i staje się modelem z ukrytymi zmiennymi w momencie gdy niektóre z tych zmiennych są nieobserwowalne. Pytaniem jest dlaczego wprowadzana jest w ogóle ukryta zmienna do modelu oraz co wnosi jej obecność z punktu widzenia analizy naukowej? Pierwszą przyczyną zastosowania zmiennych ukrytych jest redukcja wymiarowości. Jeśli informacja zawarta we wzajemnej relacji wielu zmiennych może zostać wyrażona w pewnym dobrym przybliżeniu w znacznie mniejszym zbiorze zmiennych to zdolność badacza do wyjaśniania struktury danych zmiennych wzrośnie. Jest to generalna idea przyświecająca analizie czynnikowej czy też zastosowaniu liniowych modeli strukturalnych. Z kolei modele klas ukrytych odpowiedzą na pytanie w jaki sposób ograniczyć liczbę zmiennych z którymi mamy do czynienia na początku badania do znacznie mniejszej liczby wskaźników minimalizując przy tym stratę informacji. Po drugie 3 J. K Vermunt i J. Magidson Latent variable, str. 1 (www.statisticalinnovations.com) 4 J. Magidson, J.K. Vermunt A nontechnical introduction to latent class models 4

5 ukryte wielkości są obecnie niezbyt trudne do znalezienia, coraz powszechniejsze, w obszarach zastosowań metod statystycznych. Dotyczy to przede wszystkim nauk społecznych. Z formalnego statystycznego punktu widzenia nastąpił duży postęp jeśli chodzi o estymację i testowanie modeli ukrytych klas. Niektóre osiągnięcia w ekonometrii, biometrii i statystyce matematycznej na polu modeli skończonych (finite models), modeli z nieobserwowalną heterogenicznością (unobserved heterogeneity) czy też modeli losowych (random effects models) są blisko spokrewnione z modelami klas ukrytych. Ponadto w naukach społecznych i behawioralnych odkryty został bliski związek między modelami klas ukrytych a modelami logarytmiczno-liniwymi oraz związek między modelami klas ukrytych a modelami IRM (Item Response Modelling) (J. A. Hagenaars, A. L. McCutcheon 2002). Doprowadziło to do sytuacji, w której analiza klas ukrytych stała się postrzegana jako ogólny model z ukrytymi zmiennymi dla jakościowych zmiennych. Wreszcie analiza klas ukrytych dostarcza bardzo użytecznych narzędzi pozwalających znaleźć odpowiedź na wiele pytań w naukach społecznych i behavioralnych. Pomimo że obecnie dostępnych jest wiele programów, które w łatwy sposób pozwalają na zastosowanie modeli klas ukrytych to praktykujący badacze nie zawsze uważają analizę klas ukrytych jako dobrą alternatywę dla lepiej znanych technik, takich jak analiza czynnikowa czy modelowanie liniowe równań strukturalnych nawet w przypadku gdy analiza klas ukrytych jest bardziej właściwa do zastosowania w danej sytuacji. 2. RYS HISTORYCZNY ANALIZY KLAS UKRYTYCH Problem mierzenia relacji (związku) czy też braku niezależności między dwoma lub więcej obserwowalnymi (dycho- poli- tomicznymi) zmiennymi ma długą historię. Już w XIX wieku temat ten był podejmowany przez badaczy w różnych obszarach zastosowań (J. A. Hagenaars, A. L. McCutcheon 2002). Z kolei zastosowanie modeli klas ukrytych jako narzędzia pozwalającego na głębsze zrozumienie zaobserwowanego związku ma znacznie krótszą historię. Ciekawe jest jednak iż modele, które powstały wcześniej są odpowiednikami pewnych specjalnych odmian modeli klas ukrytych czy innych modeli struktur ukrytych. Jednakże główny rozwój modeli klas ukrytych datuje się na drugą połowę XX wieku, natomiast praktyczne zastosowanie tych modeli, na różnych polach badawczych, w ostatnim dwudziestopięcioleciu. 5

6 Analiza ukrytych klas została wprowadzona w 1950 roku przez Lazarfeld a, który użył tej techniki jako narzędzia do zbudowania pewnej typologii, segmentów na podstawie zaobserwowanych dychotomicznych zmiennych. Ponad 20 lat później w 1974 Goodman uczynił go użytecznym w praktyce dzięki rozwinięciu algorytmu pozwalającego otrzymać estymatory metody największej wiarogodności parametrów modelu. Ponadto zaproponował rozwinięcie dla politomicznych (polytomous) 5 zmiennych obserwowalnych oraz wielokrotnych ukrytych zmiennych. Goodman opracował również bardzo wiele w temacie identyfikacji modelu. W tym samym okresie Haberman (1979) pokazał związek pomiędzy modelami ukrytych klas oraz modelami logarytmiczno-liniowymi dla tabel częstości z brakującymi (nieznanymi) liczebnościami komórek. Od tamtego czasu zaproponowanych zostało bardzo wiele ważnych rozwinięć klasycznych modeli ukrytych klas, takich jak np. modeli zawierających ciągłe zmienne, lokalne niezależności, porządkowe zmienne, kilka ukrytych zmiennych oraz powtarzalne miary. Ogólne ramy dla analizy kategorialnych zmiennych ze skokowymi zmiennych ukrytymi zostały opracowane przez Hagenaars a (1990) i rozwinięte przez Vermunt a (1997). Podczas gdy w naukach społecznych modele ukrytych klas oraz modele mieszane są traktowane jako narzędzia używane głównie w analizie jakościowych danych, natomiast mogą one być z powodzeniem wykorzystywane również w kilku innych obszarach analiz. Jednym z nich jest estymacja funkcji gęstości, w której wykorzystuje się fakt, iż złożone funkcje gęstości mogą być przybliżane do ich kombinacji ze skończonymi elementami o prostszej funkcji gęstości. Analiza ukrytych klas może być również wykorzystywana jako narzędzie do probabilistycznej analizy skupień dla ciągłych zmiennych obserwowalnych. Jest to podejście oferujące wiele zalet w stosunku do tradycyjnych technik wykorzystywanych w analizie skupień takich jak segmentowanie za pomocą metody K- średnich. Kolejnym obszarem zastosowania jest zajmowanie się, radzenie sobie z nieobserwowalną heterogenicznością; np. w analizie regresji z zależnymi obserwacjami. 3. KLASYFIKACJA MODELI KLAS UKRYTYCH Model z ukrytymi zmiennymi jest nieliniową ścieżką analizy problemu. Ponadto model zawiera jedną lub więcej ukrytych zmiennych reprezentujących interesujące 5 zmienna politomiczna to zmienna z wieloma kategoriami w przeciwieństwie do zmiennej dychotomicznej, która posiada tylko dwie kategorie. 6

7 badającego charakterystyki, które nie są obserwowalne. Istnieją dwa podstawowe założenia definiujące przyczynowy mechanizm, któremu podlegają odpowiedzi. Pierwsze, zakłada się, że odpowiedzi dotyczące wskaźników są wynikiem wpływu jednostki na ukrytą zmienną. Po drugie zmienne obserwowalne nie mają ze sobą nic wspólnego po wprowadzeniu zmiennych ukrytych; co jest często referowane jako aksjomat lokalnej niezależności. Pozostałe dwa założenia dotyczą rozkładu ukrytych jak i obserwowalnych zmiennych. Rozkład tych zmiennych determinuje różne rodzaje modeli. Tak jak podaje Bartholomew wyróżniamy cztery główne rodzaje modeli: analiza czynnikowa (FACTOR ANALYSIS FA) analiza z ukrytymi charakterystykami (LATENT TRAIT ANALYSIS LTA) analiza z ukrytymi profilami (LATENT PROFILE ANALYIS LPA) analiza z ukrytymi zmiennymi (LATENT CLASS ANALYSIS LCA) Tablica 1. Klasyfikacja metod analizy klas ukrytych Zmienna ukryta Zmienna obserwowalna Ciągła Skokowa Ciągła FA LPA Skokowa LTA LCA Źródło: D.J. Bartholomew i M. Knott 2002, Latent Variable Models and Factor Analysis, str. 3 Jak pokazuje powyższe zestawienie, w FA oraz LTA zmienne ukryte są traktowane jako ciągłe o rozkładzie normalnym. Z kolei zmienne obserwowalne są ciągłe i w większości przypadków warunkowy rozkład zmiennych obserwowalnych dla danych ukrytych zmiennych jest zakładany jako normalny. Natomiast w przypadku LPA i LCA ukryte zmienne są skokowe i zakłada się, że pochodzą z rozkładu wielomianowego, natomiast zmienne niezależne (wskaźniki) obserwowalne są dychotomiczne, porządkowe czy też nominalne jakościowe, a ich rozkłady warunkowe mają rozkład dwu- lub wielomianowy. LPA oraz LCA składają się na analizę ukrytych struktur, opartej na założeniu, że zmienne obserwowalne są wskaźnikami pewnej ukrytej struktury. Głównym aspektem analizy jest powiązanie pomiędzy zmiennymi obserwowalnymi i ukrytymi, które można przedstawić za pomocą formalnych modeli matematycznych. Wspomniana analiza 7

8 ukrytych struktur powstała na potrzeby nauk społecznych; w socjologii służy mierzeniu postaw społecznych, w psychologii dotyczy raczej zdolności niż postaw a w ekonomii przy badaniu np. jakości życia, statusu ekonomicznego, opinii czy aktywności konsumenta. 6 Fundamentalnym założeniem we wspomnianej wcześniej typologii Bartholomew a jest rozróżnienie pomiędzy zmienną ciągłą i skokową. Badacz musi sam zadecydować czy bardziej naturalnym jest traktować zmienne jako ciągłe czy też skokowe. Jednakże jak wykazał Heinen (T. Hainen 1996), rozkład ukrytej ciągłej zmiennej może być aproksymowany przez rozkład skokowy, co pokazuje, że rozgraniczenie z początku tego akapitu nie jest wcale takie fundamentalne jakby można było początkowo sądzić. Specyfika rozkładów warunkowych zmiennych objaśniających wynika naturalnie z typu przyjętej skali. Dynamiczny rozwój modeli z ukrytymi zmiennymi w naturalny sposób skłania się ku temu by dopuścić różny rozkład dla każdej ze zmiennych. Mogą to być: rozkłady: normalny, t-studenta, lognormalny, gamma czy wykładniczy dla zmiennych ciągłych; rozkłady: dwumianowy dla dychotomicznych zmiennych, wielomianowy dla porządkowych i nominalnych oraz Poisson a, dwumianowy i dwumianowy odwrotny dla liczebności. Zależnie od tego czy zmienna ukryta jest traktowana jako ciągła czy skokowa otrzymuje się jedną z form modeli: LTA lub LCA. 7 Dotychczas omówiono modele klas ukrytych dla wskaźników jakościowych. Jednakże podstawowe założenie analizy ukrytych klas mówiące o tym, że parametry statystycznego modelu różnią się pomiędzy nieobserwowalnymi podgrupami, może również być nakładane na modele ze zmiennymi różnych typów skali. W literaturze przedmiotu wyodrębnia się 3 ważne typy aplikacji modeli klas ukrytych lub skończonych modeli mieszanych, które nie mieszczą się w ramach jakościowej analizy danych, a mianowicie: segmentacja ze zmiennymi ciągłymi, estymacja funkcji gęstości i modelowanie efektów losowych (random-effect modelling). W ciągu ostatnich 10 lat powróciło zainteresowanie analizą ukrytych klas jako narzędzia do analizy skupień z ciągłymi zmiennymi. Model ukrytych klas może być postrzegany jako probabilistyczny albo jako oparty na modelu (modelowy) wariant tradycyjnej niehierarchicznej procedury analizy skupień jak np. metoda K-średnich. Pokazano, że procedura segmentowania oparta na ukrytych klasach jest skuteczniejsza od 6 A. Bartkowiak..., str. 1 i 2 7 Ibidem, str. 2 8

9 większości tradycyjnych metod ad hoc. 8 Metoda ta znana jest jako: model ukrytego profilu (latent profile model), segmentowanie modelu mieszanego, oparte na modelu segmentowanie, ukryta analiza dyskryminacyjna oraz segmentowanie ukrytych klas. W podstawowej formule modelu prawdopodobieństwa zostały zastąpione przez gęstości. Z ciągłymi zmiennymi, klasowo wyszczególnione gęstości zazwyczaj są przyjmowane jako (ograniczone) wielowymiarowe normalne, gdzie każda ukryta klasa posiada swój własny średni wektor oraz macierz kowariancji. Innym ważnym zastosowaniem ukrytych klas jest nieparametryczny model efektów losowych. Leżący u podstaw pomysł polega na tym, że parametry modelu regresji mogą się różnić w obrębie nie obserwowalnych podgrup. Dla tego rodzaju analizy, do której często nawiązuje się jako do analizy regresji ukrytych klas, zmienna ukrytych klas (ukryta klasa) pełni rolę zmiennej uśredniającej (moderating). Owa metoda jest bardzo podobna do modeli regresji dla powtarzalnych miar lub zbiorów dwupoziomowych danych, z tą różnicą, że brak jest założenia dotyczącego rozkładu losowych czynników. Tradycyjne modele używane w analizie regresji, analizie dyskryminacyjnej czy logliniowej zawierają parametry, które opisują tylko zależności między obserwowalnymi zmiennymi. Modele ukrytych klas różnią się od poprzednio wspomnianych tym, że zawierają jedną lub więcej skokowych nie obserwowalnych zmiennych. W badaniach marketingowych interpretuje się kategorie ukrytych klas, (ukrytych zmiennych) jako segmenty. Wśród swoich zastosowań analiza ukrytych klas dostarcza nowego narzędzia, pomagającego zidentyfikować ważne segmenty rynkowe w marketingu. Ostatnio został wykryty bliski związek pomiędzy modelami ukrytych klas oraz modelami efektów losowych (random effects models REM). Ponadto uwidoczniło się również powiązanie między ukrytymi klasami a ukrytymi warstwami w najszerzej używanym modelu sieci neuronowych (multilayer perceptron MLP). Rozwój tych technik otworzył drogę do zastosowania modeli ukrytych klas w nieliniowej regresji dostarczając udoskonaleń, przewagi nad obecnymi podejściami REM i MLP jeśli chodzi o szybkość i skuteczność estymacji, a także interpretacji wyników. Modele ukrytych klas nie polegają założeniom tradycyjnego modelowania, które w praktyce są często naruszane; chodzi o liniowy związek, rozkład normalny czy homogeniczność. Stąd, są mniej podatne na obciążenia (dotyczące) związane z danymi, które nie podlegają modelowym założeniom. Również dla polepszenia opisu (i predykcji) 8 metody ad hoc nie zakładają z góry przed dokonaną analizą istnienie pewnych prawidłowości w analizowanych zmiennych np. ilość analizowanych klas. 9

10 segmentów, związek między ukrytymi klasami a zmiennymi (covariates) może być szacowany jednocześnie wraz z identyfikacją klas (segmentów). To pozwala na wyeliminowanie stosowanego zazwyczaj drugiego kroku analizy, w której analiza dyskryminacyjna jest przeprowadzana w celu powiązania segmentów lub czynników, otrzymanych tradycyjnymi metodami, z demograficznymi lub innymi zmiennymi. Ostatnio modele ukrytych klas zostały rozszerzone o zmienne o różnych typach skali (nominalne, porządkowe, ciągłe oraz liczebności) zawarte w tej samej analizie. Poniżej przedstawiono krótką charakterystykę 3-ch rodzajów modeli ukrytych klas. Analiza wykorzystująca te modele może być wykorzystana do analizy jako substytucyjna do tradycyjnych technik analizy skupień, jako narzędzie zastępujące tradycyjną analizę czynnikową redukującą wymiarowość, oraz jako narzędzie estymacji osobnych modeli regresji dla poszczególnych segmentów. Istnieją trzy główne obszary analizy z wykorzystaniem modeli ukrytych klas, które to obejmują: umieszczanie analizowanych przypadków w segmentach, redukcję zmiennych, konstrukcję skali oraz predykcję zmiennej zależnej. Można więc wyróżnić trzy główne rodzaje modeli ukrytych klas: modele ukrytych klas z wykorzystaniem segmentów (Latent Class Cluster Models) modele ukrytych klas z wykorzystaniem czynników (Latent Class Factor Models) modele ukrytych klas w regresji i modelach wyboru (Latent Class Regressioon and Choice Models). Modelowanie ukrytych klas z wykorzystaniem segmentacji polega na identyfikacji segmentów obejmujących jednostki obserwacji mających te same zainteresowania, charakteryzujących się takimi samymi postawami, zachowaniem czy wyznających te same wartości. LC Cluster Modele zawierają zmienną ukrytą o K kategoriach, z których każda reprezentuje segment. Przewagę jaką powyżej wspomniane modele mają nad tradycyjną analizą skupień to: klasyfikacja, przynależność bazuje na prawdopodobieństwach wyestymowanych bezpośrednio z modelu zmienne mogą być ciągłe, kategorialne (nominalne lub porządkowe) lub liczebności, lub ich dowolną kombinacją do opisu segmentów można używać zmiennych demograficznych oraz innych zmiennych objaśniających. 10

11 Tradycyjne podejście wykorzystują podejście algorytmu niekontrolowanego uczenia się (klasyfikacji), którego mechanizm polega na grupowaniu cech, które są blisko siebie biorąc przyjmując ad hoc definicję dystansu. W ostatniej dekadzie zainteresowanie przesunęło się w stronę modeli bazujących na podejściu wykorzystujących oszacowane prawdopodobieństwa do sklasyfikowania cech do odpowiedniej klasy. Najpopularniejszy model wykorzystuje podejście, w którym każda ukryta klasa reprezentuje ukryty segment. W badaniach marketingowych metoda ta nazywana jest ukrytą analizą dyskryminacyjną. W dzisiejszych czasach posiadając szybkie komputery w łatwy sposób można przeprowadzać te żmudne obliczeniowo analizy. W przypadku zmiennej ciągłej Magidson i Vermunt pokazali, że analiza ukrytych klas z wykorzystaniem klas daje taki sam wynik, jak w przypadku zastosowania algorytmu K - średnich. W przypadku modeli ukrytych klas z wykorzystaniem czynników: mamy do czynienia z identyfikacją czynników, które grupują ze sobą zmienne posiadające to samo źródło wariancji, model może zawierać kilka porządkowych ukrytych czynników, z których każdy ma 2 lub więcej poziomów, czynniki mogą być skorelowane lub nieskorelowane (ortogonalne). Zalety powyższych modeli nad tradycyjną analizą czynnikową są następujące: nie ma potrzeby obracania czynników by je interpretować, estymacja ocen czynników metodą największej wiarogodności są otrzymywane bezpośrednio z modelu bez nakładania dodatkowych założeń, zmienne mogą być ciągłe, jakościowe (nominalne lub porządkowe) lub liczebności, lub ich dowolną kombinacją, rozbudowane modele czynnikowe mogą być oszacowane zawierając zmienne objaśniające oraz skorelowane reszty. Z kolei tradycyjne podejście analizy czynnikowej stosowane przez badaczy marketingowych zawiera: szacowanie złożonych zmiennych z przedmiotów badań będących postawami, szacowanie perceptualnych map i wykresów wiążących ze sobą produkt i jego markę z zachowaniami, postawą oraz cechami demograficznymi jednostek, estymacja ocen faktorów, bezpośrednią konwersję, przejście od faktorów do segmentów. 11

12 Ponadto analiza ukrytych klas z wykorzystaniem czynników może być przeprowadzona dla mniejszej liczby zmiennych niż tradycyjna analiza czynnikowa. Na przykład: w przypadku tradycyjnej analizy czynnikowej potrzeba przynajmniej trzech zmiennych ciągłych i taka właśnie analiza biorąca pod uwagę 3 zmienne daje tylko jeden czynnik. Natomiast w przypadku modelu ze zmiennymi ukrytymi 3 zmienne dychotomiczne dostarczają 1 czynnik. Oczywiście analiza ukrytych klas z wykorzystaniem czynników nie ogranicza się tylko do zmiennych dychotomicznych, a włączenie do analizy dodatkowych zmiennych pozwala na identyfikowanie kolejnych czynników. Na przykład w analizie jednej lub dwóch ciągłych zmiennych, nawet bez zmiennych objaśniających może dostarczyć w rozwiązaniu 2 lub więcej czynników. Co więcej, wyniki dwuczynnikowego rozwiązania mogą być czytelnie zilustrowane graficznie. 9 Wreszcie model ukrytych klas w regresji, znany również jako model segmentacji ukrytych klas, charakteryzuje się tym, że: jest wykorzystywany do predykcji zależnej zmiennej będącej funkcją predyktorów, zawiera zmienną ukrytą o R-kategoriach, z których każda reprezentuje homogeniczną populację (klasę, segment), dla każdego z ukrytych segmentów można wyestymować inny model regresji, klasyfikuje cechy w segmenty i symultanicznie szacuje dla każdego z nich modele regresji. Zaletami, którymi może się podejście poszczycić, jest to, iż: osłabienie tradycyjnych założeń, mówiących o tym, że każdy model dla wszystkich cech zakłada R=1, co pozwala na oszacowanie osobnego modelu regresji dla każdego z segmentów, diagnostyczne statystyki pozwalają na określenie wartości dla R, w przypadku, gdy R>1, model może zostać rozszerzony o dodatkowe zmienne objaśniające, by przeprowadzona analiza była dokładniejsza i by przyporządkowanie do segmentu było bardziej klarowne. Typowe zastosowanie w marketingu tradycyjnego odpowiednika powyższego modelu ukrytych klas zawiera: 9 (Modele czynnikowe mogą mieć również zastosowanie, gdy mamy do czynienia z mierzeniem i klasyfikacją błędów w jakościowych zmiennych. Właściwie można to porównać do modeli ukrytych charakterystyk (IRT), w przypadku których nie jest wymagane założenie o normalności rozkładu charakterystyk (traits) poddanych analizie.) 12

13 studia, analiza satysfakcji klienta: identyfikację poszczególnych determinant satysfakcji klienta, które są odpowiednie dla każdego segmentu, wspólne studia: identyfikacja atrybutów produktów, które należą do różnych segmentów rynku, bardziej ogólnie: identyfikacja ukrytych segmentów, które mogą wyjaśnić nieobserwowalną heterogeniczność wśród danych. Zatem ogólnie rzecz biorąc, opisane modele (Latent Class Models) oferują ciekawe podejście badaczom, których obszarami zainteresowania jest szeroko pojęty marketing i identyfikacja segmentów rynkowych, ale nie tylko, mogą one również znaleźć zastosowanie w innych dziedzinach nauk społecznych i ekonomicznych. 4. PODSTAWOWE ZAŁOŻENIA MODELU KLAS UKRYTYCH. ZAŁOŻENIE LOKALNEJ NIEZALEŻNOŚCI Konstrukcja modelu Latent Class Model jest oparta na przyjęciu trzech założeń: Pierwsze - Liczebności klas - oznacza to, że klasy wykluczają się na wzajem, co implikuje to, że wszystkie osoby mogą być przyporządkowane jednej z nich, naturalnie z określonymi prawdopodobieństwami. Drugie - Określone przyporządkowane klasom prawdopodobieństwa (pozycje, przyszeregowania) spełniają: I Π i= 1 A' X i = 1 dla i = 1... I Π J j= 1 B' X j = 1 dla j = 1... J (1) gdzie: B X - prawdopodobieństwo zrealizowania się zdarzenia B; A X - prawdopodobieństwo zrealizowania się zdarzenia A. Każda z klas ma dla każdego wyrażenia wszystkich zaobserwowanych zmiennych określone prawdopodobieństwo = prawdopodobieństwo warunkowe. I właśnie te prawdopodobieństwa charakteryzują klasy, ich zróżnicowanie wewnątrz każdej z nich oraz pomiędzy nimi. Trzecie - Lokalna stochastyczna niezależność - oznacza to, że wewnątrz każdej z klas odpowiedzi respondentów na zmienne (pytania) są brane jako stochastycznie niezależne; co oznacza, że prawdopodobieństwo wszystkich odpowiedzi poszczególnej osoby wewnątrz klas równe jest produktowi prawdopodobieństwa jego pojedynczej odpowiedzi. 13

14 W modelu klas ukrytych brak jest ograniczającego założenia o liniowości, normalności rozkładu danych czy też jednorodności wariancji. Analiza ukrytych klas obejmuje analizę ukrytych charakterystyk (np. inteligencji, zadowolenia, postawy), czyli takich, których nie można bezpośrednio zmierzyć. Jednakże poprzez analizę zmiennych mierzalnych, manifestowanych i próbę znalezienia związku między tymi zmiennymi a ukrytą lub ukrytymi zmiennymi, które są właściwym obiektem badań. Badając np. dwie dychotomiczne zmienne w poniższej tablicy kontyngencji. Tablica 2. Tablica kontyngencji dla przykładu zwolenników dwóch seriali. Oglądam regularnie Tematy dnia Oglądam regularnie serial Strasznie miła rodzina Tak Nie Tak Nie Źródło: Prof. Herrmann, University of Mainz, Department of Marketing Sprawdzając zależność między tymi zmiennymi używając testu Chi-kwadrat otrzymujemy obliczoną statystykę na poziomie 197,6 przy 1 stopniu swobody, co oczywiście daje podstawy do odrzucenia hipotezy mówiącej o braku zależności między badanymi zmiennymi. Jaka jest przyczyna występowania tej zależności? W tej sytuacji należałoby się doszukiwać czegoś ukrytego, czegoś co nie jest mierzalne. Odpowiedź brzmi: ukryta zmienna. Ukryta zmienna odpowiada za przynależność respondentów do jednej z np. dwóch klas. Jeżeli zatem założymy, że ukryta wyrażana jest przez dwie klasy. Następnym krokiem przeprowadzenia analizy ukrytych klas jest wyznaczenie osobnej tablicy kontyngencji dla każdej z klas, tak aby wewnątrz klas zachowana została tzw. lokalna niezależność. Tablica 3a. Tablica kontyngencji dla KLASY NR1 300 osób Oglądam regularnie Tematy dnia Oglądam regularnie serial Strasznie miła rodzina Tak Nie Tak Nie

15 Źródło: jak w tablicy 2. Tablica 3b. Tablica kontyngencji dla KLASY NR2 500 osób Oglądam regularnie Tematy dnia Źródło: jak w tablicy 2. Oglądam regularnie serial Strasznie miła rodzina Tak Nie Tak Nie Obecność ukrytych klas jest przyczyną istnienia zależności między powyższymi zmiennymi. Przesłanką dla przeprowadzenia analizy są: tablica kontyngencji z obserwacjami, założenie o liczbie obserwacji w każdej z klas istnienie niezależności wewnątrz klas (każda z osób może być przyporządkowana tylko do jednej z klas). Z przedstawionego prostego przykładu wynika cel analizy ukrytych klas. Analiza ukrytych klas ma na celu znalezienie, zdefiniowanie odpowiedniej liczby klas, w których zaobserwowane zmienne są od siebie niezależne, co odpowiada tzw. lokalnej niezależności. Ponadto lokalna niezależność oznacza również niezależność wewnątrz każdej z klas. Chcąc wyprowadzić model z powyższego przykładu należy najpierw wprowadzić odpowiednie oznaczenia: A - zmienna - Oglądam regularnie serial Strasznie miła rodzina i - warianty zmiennej A B - zmienna - Oglądam regularnie Tematy dnia j - warianty zmiennej B X - zmienna ukryta t - warianty zmiennej X (t=1,...,t), w przykładzie T=2 П ij - prawdopodobieństwo, że respondent wybierze i-ty oraz j-ty wariant odpowiednio zmiennej A i B p ij - zaobserwowana wartość П ij Π ij = T Π i= 1 ABX ijt (2) 15

16 Zaobserwowane zmienne można wyrazić jako funkcję wielu nieznanych parametrów w postaci: ABX Π = X X B X Π Π A ' ' * ijt t it Π jt * (3) gdzie: wyrażenia po prawej stronie równania oznaczają odpowiednio: Π X t - prawdopodobieństwo przynależności do klasy t Π A ' X it - warunkowe prawdopodobieństwo, że respondent wybrał i-ty wariant zdarzenia A, pod warunkiem znalezienia się w klasie t Π B jt' X - warunkowe prawdopodobieństwo, że respondent wybrał j-ty wariant zdarzenia B, pod warunkiem znalezienia się w klasie t W przykładzie "telewizyjnym", załóżmy, że mielibyśmy dane wszystkie nieznane parametry: Zaobserwowana zmienna: p 11 = 93 / 800 = 0,116 Prawdopodobieństwo przynależności do klas: П X 1 = 300 / 800 = 0,375 П X 2 = 500 / 800 = 0,625 Warunkowe prawdopodobieństwa bycia w klasie 1: П A'X 11 = 0,2 П B'X 11 = 0,8 Warunkowe prawdopodobieństwa bycia w klasie 2: П A'X 12 = 0,9 П B'X 12 = 0,1 Łatwo podstawić do wzoru ogólnego powyższe współczynniki by otrzymać wartość prawdopodobieństwa Π 11 : Π 11 = Σ Π X t * Π A X B X it * Π jt 0,116 = 0,375*0,2*0,8 + 0,625*0,9*0,1 16

17 Jednakże nieznane są wartości parametrów znajdujących się po prawej stronie ogólnego wzoru, zatem najpierw muszą one zostać oszacowane przy pomocy użycia metody największej wiarogodności (Maximum Likelihood Estimation MLE). 5. ESTYMACJA MODELU Z WYKORZYSTANIEM METODY NAJWIĘKSZEJ WIARYGODNOŚCI. OGRANICZENIA W ZASTOSOWANIU MNW Niech I oznacza całkowitą liczbę wariantów możliwych odpowiedzi w L-wymiarowej tabeli częstości, tak że I = L l= 1 D l, oraz niech i oznacza konkretną daną wejściową, n i zaobserwowaną częstość w komórce i, oraz P(Y=y i ) prawdopodobieństwo posiadania schematu odpowiedzi komórki i. Do oszacowania parametrów modeli ukrytych klas używa się metody największej wiarogodności. Istotą MNW jest budowa funkcji wiarogodności, która jest maksymalizowana. Dla wygody obliczeń zazwyczaj wykorzystuje się logarytm funkcji wiarygodności który zapisuje się jako: I ln L = n ln P( Y = ) (4) i= 1 i y i Należy zauważyć, że tylko niezerowe zaobserwowane dane wejściowe odnoszą się do funkcji wiarogodności, jest to cecha którą wykorzystuje bardziej wydajne oprogramowanie stworzone do szacowania ukrytych klas, stworzone na przestrzeni ostatnich lat. Pierwszym z różnych problemów powstałych przy szacowaniu modeli ukrytych klas jest to, że parametry modelu mogą być niezidentyfikowane nawet, jeśli liczba stopni swobody jest większa lub równa zero. Nieidentyfikowalność oznacza różne zbiory wartości parametrów dają takie same maksimum funkcji log-wiarogodności albo inaczej mówiąc, że nie ma jedynego zbioru oszacowań parametrów. Formalnie sprawdza się identyfikację poprzez zidentyfikowanie dodatniej macierzy informacji. Kolejnym sposobem jest szacowanie modelu z różnymi zbiorami wartości (danych) początkowych. Poza rozwiązaniami lokalnymi zidentyfikowany model daje takie same wyniki dla każdego zbioru wartości początkowych. 17

18 Pomimo, że brak jest pewnych ogólnych zasad uwzględniających identyfikację modeli ukrytych zmiennych możliwe jest wyznaczenie konkretnych oczekiwań i wskazanie błędów (niezgodności). Przy braku ograniczeń dla analizy ukrytych klas potrzebne są co najmniej 3 wskaźniki, ale w przypadku gdy są one dychotomiczne to nie więcej niż 2 ukryte klasy mogą być zidentyfikowane. Należy uważać przy 4 dychotomicznych zmiennych, w którym to przypadku 3 klasowy model bez nałożonych ograniczeń jest niezidentyfikowany, pomimo, że posiada dodatnią liczbę stopni swobody. Z 5 dychotomicznymi wskaźnikami nawet pięcioklasowy model jest identyfikowalny. Zwykle możliwe jest osiągnięcie identyfikacji poprzez ograniczanie konkretnych parametrów modelu: np. ograniczenia P(Y l =1 X=1)=P(Y l =2 X=2) mogą być wykorzystane do zidentyfikowania modelu dwuklasowego z dwiema dychotomicznymi wskaźnikami. Drugi problem, który odnosi się do estymacji modeli ukrytych klas to obecność lokalnych maksimów. Funkcja log-wiarogodności modelu ukrytych klas nie zawsze jest wypukła, co oznacza rosnące (wstępujące) algorytmy mogą zbiegać się do innego maksimum zależnie od wartości początkowych. Zazwyczaj najlepszym sposobem jest więc, oszacować model przy użyciu różnych zbiorów losowych wartości początkowych. Zazwyczaj kilka zbiorów zbiega się do tej samej najwyższej wartości funkcji log-wiarogodności, które później mogą zostać przypisane rozwiązaniom największej wiarogodności. Niektóre programy zautomatyzowały używanie kilku zbiorów losowych wartości początkowych aby zredukować prawdopodobieństwo otrzymania rozwiązania lokalnego. Trzecim problemem w modelowaniu ukrytych klas jest pojawianie się rozwiązań granicznych, które są prawdopodobieństwami równymi 0 lub 1, albo log-liniowymi parametrami dążącymi do + lub nieskończoności. One to mogą powodować obliczeniowe problemy w szacowaniu algorytmów, pojawianie się rozwiązań lokalnych, komplikacje w obliczaniu (szacowaniu) standardowych błędów i liczby stopni swobody dla testów zgodności. Można zapobiec pojawianiu się rozwiązań granicznych poprzez narzucanie ograniczeń lub biorąc pod uwagę inne rodzaje wcześniej istniejących informacji o parametrach modelu. Najbardziej popularnymi metodami numerycznymi wykorzystywanymi w estymacji modeli są algorytmy EM-Expectation-Maximization oraz Newton-Raphson-NR. EM jest bardzo stabilną iteracyjną metodą do szacowania maksymalnej wiarogodności z niekompletnymi danymi. NR jest szybszą procedurą, jednakże aby funkcjonować potrzebuje dobrych wartości początkowych. Druga z tych metod wykorzystuje macierz 18

19 drugiego rzędu pochodnych funkcji log-wiarogodności, która jest również potrzebna dla otrzymania standardowych błędów parametrów modelu. 6. ZAGADNIENIA SELEKCJI (WYBORU) MODELI W przypadku modeli klas ukrytych niektóre z kryteriów oceny dopasowania modelu stały się w większym lub mniejszym stopniu standardowe. Cała procedura sprowadza się do sprawdzenia jak dobrze teoretyczne liczebności komórek replikują empiryczne zaobserwowane liczebności. Najczęściej używanymi testami są: Chi-kwadrat, likelihood ratio L 2, AIC oraz BIC 10. Wszystkie te testy sprowadzają się do porównywania między teoretycznymi częstościami reprezentowanymi przez oszacowane parametry modelu oraz zaobserwowanymi w danych empirycznych. Model klas ukrytych prowadzący do dużych rozbieżności między wspomnianymi częstościami jest nie do przyjęcia, oczywiście gdy teoretyczne częstości są zbliżone do zaobserwowanych to istnieje możliwość jego akceptacji i zastosowania. Modele z większą liczbą parametrów zazwyczaj dają lepsze dopasowanie do danych (teoretyczne częstości znajdują się bliżej zaobserwowanych). Modele z mniejszą liczbą parametrów dają nieco gorsze dopasowanie ale zadaniem badacza jest znalezienie najbardziej ubogiego (z jak najmniejszą liczbą szacowanych parametrów) modelu czyli jak najmniej skomplikowanego który reprezentuje akceptowalne (zadowalające) dopasowanie do zaobserwowanych danych. Istnieje kilka podejść estymacji dopasowania modeli ukrytych klas. Najczęściej używanym jest podejście wykorzystujące iloraz wiarygodności chi-kwadrat statystyki L 2 w celu oszacowania obszaru, w którym wyniki estymacji dla teoretycznych częstości Fˆ ijkl różnią się od korespondujących z nimi zaobserwowanych częstości f ijkl : = ijkl 2 L f ln( ˆ ijkl Fijkl / f ijkl) ) (5) Model jest dopasowany do danych, jeżeli wartość L 2 jest dostatecznie niska, biorąc pod uwagę powszechnie używany limit statystycznego błędu na poziome 0,05. Fˆ ijkl (częstości teoretyczne) są otrzymywane w wyniku dwustopniowego procesu. Najpierw otrzymywane są oszacowania największej wiarygodności parametrów modelu 10 AIC Akaike s Information Criterium; BIC Bayesian Information Criterium; opis tych miar został podany w dalszej części opracowania. 19

20 oraz zastępowane w prawej stronie równania (8) w celu otrzymania oszacowań prawdopodobieństw πˆ ijklt. Te oszacowania prawdopodobieństw są sumowane wewnątrz ukrytych klas w celu otrzymania teoretycznych prawdopodobieństw dla każdej z komórek w zaobserwowanej tablicy oraz pomnożone przez rozmiar próby N w celu otrzymania oszacowań największej wiarygodności dla teoretycznych częstości. T Fˆ ijkl = N ˆ π (6) t= 1 W przypadku, gdy ijklt Fˆ ijkl = f ijkl dla każdej komórki (i, j, k, l) model będzie idealnie dopasowany, a L 2 wyniesie 0. Gdy wartość L 2 przekracza 0, mierzy brak dopasowania modelu, kwantyfikując siłę związku (braku niezależności), która pozostaje niewyjaśniona przez model. Natomiast, kiedy N jest wystarczająco duże L 2 zbiega do rozkładu chikwadrat oraz liczba stopni swobody (DF) jest równa liczbie komórek w pełnym wielowymiarowym modelu minus liczba niezależnych parametrów M. W przypadku modelu z czterema kategorialnymi zmiennymi liczba komórek jest równa IJKL, a liczba parametrów: M = T 1+ T[( I 1) + ( J 1) + ( K 1) + ( L 1)] (7) M jest otrzymywane poprzez wyznaczenie T-1 niezależnych prawdopodobieństw ukrytych klas oraz dla każdej klasy I-1 warunkowych prawdopodobieństw powiązanych z kategoriami zmiennej A, J-1 niezależnych warunkowych prawdopodobieństwa powiązanych z B, itd. Ze względu na to, że prawdopodobieństwa sumują się do jedności prawdopodobieństwo powiązane z jedną kategorią każdej zmiennej jest odrzucane (stąd nie jest liczone jako niezależny parametr): może być zatem otrzymane jako jeden minus suma pozostałych. Jeżeli okazałoby się, że DF < 0 (degrees of freedom tj. stopnie swobody) wtedy model nie jest identyfikowalny, co oznacza, że niektóre oszacowania nie są dostępne dla wszystkich parametrów. Na przykład, dla I = J = K = L = 2, DF=-4 dla T = 4, co oznacza, że czteroklasowy model nie jest identyfikowalny. Jednakże w niektórych przypadkach może się zdarzyć, że DF > 0, a mimo to model nadal będzie nieidentyfikowalny. W przypadku, gdy mamy do czynienia z brakami danych w badaniu, rozkład chi-kwadrat nie powinien być używany do wyliczenia wartości p (p-value), ponieważ L 2 nie został właściwie przybliżony. Zamiast tego do estymacji p można użyć podejścia bootstrapowego. Z brakami danych mamy do czynienia w przypadku, gdy liczba zaobserwowanych zmiennych lub liczba kategorii tych zmiennych jest duża. W takiej 20

21 sytuacji liczba komórek w otrzymanej wielowymiarowej tablicy będzie duża odpowiednio do rozmiaru próby, z czego wynikają puste komórki. Braki danych również występują w przypadku, gdy modele ukrytych klas zostaną rozszerzone o zmienne ciągłe. Kolejnym podejściem oceniającym dopasowanie modelu w przypadku braku danych jest podejście wykorzystujące ważone kryterium informacyjne. Miary takie jak: AIC i BIC są szczególnie przydatne przy porównywaniu modeli. Najczęściej używaną jest statystyka BIC zdefiniowana jako BIC = L 2 ln(n) DF. Model z niższą wartością BIC jest preferowany bardziej niż ten z wartością wyższą. Inforamtion Criteria sprawdzają wiarygodność modeli estymowanych dla coraz to większej liczby parametrów wymagalnych do oszacowania bardziej pełnego modelu. Sprawdzają one wiarygodność poprzez redukcję będąc funkcją rosnącej liczby parametrów. Jeżeli model bazowy daje właściwe dopasowanie do danych, nie jest potrzebna analiza ukrytych klas, ponieważ nie istnieje związek między zmiennymi, który można wyjaśniać. W większości przypadków jest jednak tak, że model bazowy nie jest dobrze dopasowany do danych i L 2 służy jako podstawowa miara całkowitej zależności. To sugeruje trzecie podejście w szacowaniu dopasowania modeli ukrytych klas polegające na porównywaniu L 2 związanych z modelami ukrytych klas, dla których T > 1 z bazową wartością L 2 (H 0 ) w celu otrzymania procentu redukcji L 2. Tak więc skoro całkowita zależność może być skfantyfikowana przez L 2 (H 0 ), miara procentu redukcji reprezentuje całkowity związek wyjaśniony przez model. To mniej formalne podejście może być dopełnieniem dwóch pozostałych podejść, bardziej precyzyjnych, L 2 i BIC. Przykładem na to, jak wykorzystywać te miary niech będzie: załóżmy, że L 2 sugeruje, że trzyklasowy model prawie daje dokładne dopasowanie do niektórych danych (niech p=0,04), ale wyjaśnia 90% całkowitej zależności. Ponadto załóżmy, że czteroklasowy model jest najprostszym modelem, który jest dopasowany do danych zgodnie ze statystyką L 2, ale model ten wyjaśnia tylko 91% zależności. W tym przypadku na podstawie praktycznego podejścia trzyklasowy model zostanie wybrany, jako że wyjaśnia prawie tyle samo całkowitego związku. Kolejną miarą, która może być przydatna do oceny jakości modelu jest statystyka Crossie go-read a która jest wykorzystywana do walidacji chi-kwadrat modelu. Jeśli nie otrzyma się p-value podobnego jak w przypadku chi-kwadrat wtedy nie można uznać p- value wyznaczonego dla chi-kwadrat. 21

22 Standardowe błędy ocen parametrów służą do identyfikacji istotności parametrów i mogą być użyteczne przy diagnozowaniu modelu czy też jego modyfikacji. Statystyka Walda jest wykorzystywana do stwierdzenia statystycznej istotności zbioru oszacowanych parametrów dla danej zmiennej. Testuje ona hipotezę mówiącą o tym że wartości każdego z parametrów znajdujących się w zbiorze są równe zero wobec alternatywnej że są różne. 7. KLASYCZNY MODEL KLAS UKRYTYCH DLA WSKAŹNIKÓW JAKOŚCIOWYCH (SKOKOWYCH) W niniejszym opracowaniu skoncentrowano się na przedstawieniu jednego z modeli klas ukrytych określonego jako model klas ukrytych dla kategorialnych wskaźników w którym obie zmienne obserwowalna i nieobserwowalna są zmiennymi skokowymi. Tradycyjna analiza ukrytych klas zakłada, że każda obserwacja przynależy do jednej i tylko jednej T ukrytej (nieobserwowlanej) klasy oraz że istnieje lokalna niezależność między manifestowanymi zmiennymi. Oznacza to, że warunkowe przynależność do ukrytej klasy jest jednoznaczna z tym, że zaobserwowane zmienne są wzajemnie od siebie niezależne. Model ten może być wyrażony przy użyciu bezwarunkowych prawdopodobieństw przynależności do każdej ukrytej klasy oraz warunkowych prawdopodobieństw jako parametrów. Na przykład, w przypadku czterech nominalnych manifestowanych zmiennych A, B, C, D mamy: 11 gdzie ijklt X t A X it B X jt C X kt D X lt π = π π π π π (8) X π t oznacza prawdopodobieństwo znalezienia się w ukrytej klasie t = 1, 2, T ukrytej zmiennej X; π oznacza warunkowe prawdopodobieństwo otrzymania i-tego A X it wariantu odpowiedzi zmiennej A, pod warunkiem przynależności do klasy t; C X π, π, B X jt kt π dla j = 1, 2,..,J; k = 1, 2,,K; l = 1, 2,,L oznaczają odpowiednie warunkowe D X lt prawdopodobieństwa dla zmiennych B, C, D. Założony model może zostać opisany graficznie w postaci diagramu ścieżkowego (patrz poniżej). Ów diagram pokazuje, że manifestowane zmienne nie są połączone ze sobą 11 J. Vermunt, J. Magidson Latent Class Models, D. Kaplan (Ed) Handbook for Quantitative Methodology 22

23 w sposób bezpośredni, ale pośrednio przez zmienną X. Zakłada się, że ukryta zmienna wyjaśnia wszystkie zależności między manifestowanymi zmiennymi. Celem tradycyjnej analizy ukrytych klas jest determinacja jak najmniejszej liczby ukrytych klas T, które w wystarczający sposób wyjaśnią zaobserwowane zależności między manifestowanymi zmiennymi. Typowa analiza rozpoczyna się dostosowaniem T = 1 (jednoklasowego) bazowego modelu, który pokazuje wzajemną niezależność między zmiennymi. Model bazowy: π = π π π π (9) ijkl A i B j C k D l Zakłada się, że ten tak zwany zerowany model nie zapewnia dokładnego dopasowania do danych, natomiast jednowymiarowy model ukrytych klas z T = 2 jest dopasowany do danych. Proces ten jest kontynuowany poprzez dopasowywanie kolejnych modeli ukrytych klas, dodając za każdym razem kolejny wymiar poprzez zwiększenie liczby klas o 1, dopóki najprostszy model, który zapewnia dokładne dopasowanie, nie zostanie znaleziony. Dla przykładu: niech X reprezentuje zmienną ukrytą a Y l jedną z L zmiennych zaobserwowanych, gdzie 1 l L. Ponadto niech C będzie liczbą ukrytych klas a D l liczbą wariantów (poziomów) Y l. Poszczególne ukryte klasy są numerowane indeksami x, x=1,2...,c natomiast poszczególne Y l indeksami y l, y l =1,2..., D l. Wektorowy zapis Y oraz y jest używany do odniesienia się do schematu pełnej odpowiedzi. W celu przybliżenia, konkretyzacji teorii rozpatrzmy poniższy zbiór danych otrzymanych z General Social Survey 1987; Trzy dychotomiczne wskaźniki Y 1, Y 2, i Y 3 są odpowiedziami odpowiednio na pytania: czy pozwolić antyreligistom mówić (1=pozwolić, 2=nie pozwolić), czy pozwolić antyreligistom nauczać (1=pozwolić, 2=nie pozwolić), usunąć antyreligijne książki z biblioteki (1=usunąć, 2=nie usuwać). 23

24 Tablica 4. Fragment bazy danych z GSS Y 1 Y 2 Y 3 Częstość P(X=1 Y=y) P(X=2 Y=y) ,998, ,929, ,876, ,168, ,848, ,138, ,080, ,002,998 Źródło: jak w tablicy 6. Wykorzystując analizę ukrytych klas możliwa jest identyfikacja podgrup charakteryzujących się różnym stopniem tolerancji w stosunku do antyreligistów. Pojęciem leżącym u podstaw dowolnego typu z modeli ukrytych klas jest to, że prawdopodobieństwo otrzymania schematu odpowiedzi y, P(Y=y), jest średnią ważoną specyficznych dla C klas prawdopodobieństw P(Y=y X=x); co oznacza, że: C P( Y = y) = P( X = x) P( Y = y X = x) (10) x= 1 Gdzie, P(X=x) oznacza proporcję osób należących do klasy x. Podstawowa idea klasycznego modelu ukrytych klas jest powiązana z założeniem lokalnej niezależności. Zakłada się, że L manifestowanych zmiennych wziętych do analizy jest wzajemnie niezależne wewnątrz każdej z ukrytych klas. Można to zapisać przy pomocy następującej formuły: L P( Y = y X = x) = P( Y = y X = x) (11) l= 1 l l Po oszacowaniu prawdopodobieństwa warunkowej odpowiedzi P(Y l =y l X=x), porównanie tych prawdopodobieństw między klasami pokazuje jak klasy różnią się między sobą, co może zostać wykorzystane do nazwania klas. Z połączenia dwóch podstawowych równań [10] i [11] powstaje następujący model dla P(Y=y): C L P( Y = y) = P( X = x) P( Y = y X = x) (12) x= 1 l= 1 l l 24

25 Wyestymowany dwuklasowy model dla zbioru danych z powyższego przykładu daje następujące wyniki (por. zbiór danych z tablicy 4): Tablica 5. Wyniki modelu dwuklasowego. X=1 X=2 (tolerancyjni) (nietolerancyjni) P(X=x),62,38 P(Y 1 =1 X=x),96,23 P(Y 2 =1 X=x),74,04 P(Y 3 =1 X=x),92,24 Źródło: jak w tablicy 6. Klasy zawierają odpowiednio 62 oraz 38 procent jednostek. Widać ponadto, że klasa pierwsza nazwijmy ją (tolerancyjni) ze względu na znacznie wyższe prawdopodobieństwa odpowiedzenia tolerancyjnie na zadane pytania, wskaźniki niż jednostki należące do drugiej klasy - nietolerancyjni. Podobnie jak w analizie skupień, jednym z celów analizy ukrytych klas może być przyporządkowanie jednostek obserwacji do ukrytych klas. Prawdopodobieństwo przynależności do ukrytej klasy x do której często odnosi się prawdopodobieństwo przynależności a posteriori może zostać otrzymane zgodnie z regułą Bayes owską: P( X P( X = x) P( Y = y X = x) = xy = y) = (13) P( Y = y) Najczęściej spotykanym sposobem (regułą) klasyfikacji jest dostosowanie, które wydaje się być dostosowaniem (przyporządkowaniem) każdej z jednostek do ukrytej klasy z zachowaniem najwyższego prawdopodobieństwa P(X=x)P(Y=y X=x). Prawdopodobieństwa przynależności do klas pokazane w pierwszej tabeli wskazują na ludzi tolerancyjnych, którzy udzielili na co najmniej dwa pytania tolerancyjnej odpowiedzi i dlatego sklasyfikowani do klasy pierwszej ( tolerancyjni ). Haberman (S.J. Haberman 1979) pokazał, że model ukrytych klas może być również określony jako logliniowy model dla tabeli z brakami w komórkach, danych wejściowych, albo bardziej precyzyjnie jako model dla rozszerzonej tabeli zawierającej ukrytą zmienną X jako dodatkowy wymiar tejże tabeli. Powiązany logliniowy model dla P(X=x, Y=y) ma następującą postać: 25

26 ln P( X = x, Y L l= 1 L X Yl X, Yl = y) = β + β + β + β (14) x y l zawiera główny efekt, jednozmienne przypadki dla ukrytej zmiennej i wskaźników oraz dwuzmienne przypadki zawierające X i każdy ze wskaźników. Należy zauważyć, że przypadki z 2 lub więcej manifestowanymi zmiennymi są pominięte z racji założenia lokalnej niezależności. Związek pomiędzy logliniowymi parametrami a prawdopodobieństwem l= 1 warunkowej odpowiedzi reprezentuje poniższy wzór: P( Y l = y l Yl X, Yl ( β y + β ) l x, yl Yl X, Yl ( β β ) exp X = x) = Dl = exp + r 1 r x, r Ten zapis wskazuje, że logliniowe sformułowanie odnosi się do wyszczególnienia logitowego modelu dla każdego prawdopodobieństwa warunkowej odpowiedzi. Rodzaj użytego sformułowania ukrytych klas zaczyna mieć znaczenie w przypadku określenia ograniczeń (restrykcji). Pomimo, że ograniczenia nałożone na prawdopodobieństwo mogą czasami być transformowane na ograniczenia na logliniowe parametry i odwrotnie, istnieje wiele sytuacji, gdy jest to niemożliwe. Zostało zaproponowanych kilka modyfikacji podstawowego modelu ukrytych klas. Jedną z najważniejszych modyfikacji jest zawarcie zmiennych lub grupowanie zmiennych opisujących (prognozujących) zmienną ukrytą X. Zostało to osiągnięte dzięki określeniu multinominalnego modelu logitowego dla prawdopodobieństwa przynależności do ukrytej klasy x; tzn: exp P( X = x Z = z) = C exp x, y X K X, Zk ( γ x + γ ) k = x z 1 k X K X, Zk ( γ r + γ r zk ) r= 1 k = 1 l (15) (16) Gdzie z k wartość zmiennej k. Kolejną ważną modyfikacją jest powiązane z używaniem informacji do porządkowania kategorii. W schemacie log-liniowym ukrytej zmiennej, porządkowe ograniczenia mogą być narzucone poprzez struktury asocjacyjnego modelu (association model) dla dwuzmiennych warunków ograniczyć β X, yl X, yl x, y β l x X, yl x, yl l. Na przykład jeśli Y l jest porządkowym wskaźnikiem można β = y Podobne ograniczenia mogą być użyte dla ukrytej zmiennej. W przypadku gdy C-klasowy model nie pasuje do danych, założenie lokalnej niezależności nie jest spełnione dla jednej lub więcej par wskaźników. Powszechną metodą 26

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4. Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

Spis treści 3 SPIS TREŚCI

Spis treści 3 SPIS TREŚCI Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, 诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów

Bardziej szczegółowo

Wydział Matematyki. Testy zgodności. Wykład 03

Wydział Matematyki. Testy zgodności. Wykład 03 Wydział Matematyki Testy zgodności Wykład 03 Testy zgodności W testach zgodności badamy postać rozkładu teoretycznego zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 Regresja wielokrotna Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X 1, X 2, X 3,...) na zmienną zależną (Y).

Bardziej szczegółowo

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 13 Mikołaj Czajkowski Wiktor Budziński Endogeniczność regresja liniowa W regresji liniowej estymujemy następujące równanie: i i i Metoda Najmniejszych Kwadratów zakłada, że wszystkie zmienne

Bardziej szczegółowo

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

Rozkłady statystyk z próby

Rozkłady statystyk z próby Rozkłady statystyk z próby Rozkłady statystyk z próby Przypuśćmy, że wykonujemy serię doświadczeń polegających na 4 krotnym rzucie symetryczną kostką do gry, obserwując liczbę wyrzuconych oczek Nr kolejny

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje

Bardziej szczegółowo

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

KADD Metoda najmniejszych kwadratów funkcje nieliniowe Metoda najmn. kwadr. - funkcje nieliniowe Metoda najmniejszych kwadratów Funkcje nieliniowe Procedura z redukcją kroku iteracji Przykłady zastosowań Dopasowanie funkcji wykładniczej Dopasowanie funkcji

Bardziej szczegółowo

Etapy modelowania ekonometrycznego

Etapy modelowania ekonometrycznego Etapy modelowania ekonometrycznego jest podstawowym narzędziem badawczym, jakim posługuje się ekonometria. Stanowi on matematyczno-statystyczną formę zapisu prawidłowości statystycznej w zakresie rozkładu,

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii SPIS TREŚCI Przedmowa... 11 Wykaz symboli... 15 Litery alfabetu greckiego wykorzystywane w podręczniku... 15 Symbole wykorzystywane w zagadnieniach teorii mnogości (rachunku zbiorów)... 16 Symbole stosowane

Bardziej szczegółowo

STATYSTYKA

STATYSTYKA Wykład 1 20.02.2008r. 1. ROZKŁADY PRAWDOPODOBIEŃSTWA 1.1 Rozkład dwumianowy Rozkład dwumianowy, 0 1 Uwaga: 1, rozkład zero jedynkowy. 1 ; 1,2,, Fakt: Niech,, będą niezależnymi zmiennymi losowymi o jednakowym

Bardziej szczegółowo

POLITECHNIKA OPOLSKA

POLITECHNIKA OPOLSKA POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 4 Temat: Analiza korelacji i regresji dwóch zmiennych

Bardziej szczegółowo

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22 Spis treści Przedmowa do wydania pierwszego.... 11 Przedmowa do wydania drugiego.... 15 Wykaz symboli.... 17 Litery alfabetu greckiego wykorzystywane w podręczniku.... 17 Symbole wykorzystywane w zagadnieniach

Bardziej szczegółowo

Wykład 3 Hipotezy statystyczne

Wykład 3 Hipotezy statystyczne Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza

Bardziej szczegółowo

Uogolnione modele liniowe

Uogolnione modele liniowe Uogolnione modele liniowe Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 1 / 17 (generalized linear model - glm) Zakładamy,

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

MODELE LINIOWE. Dr Wioleta Drobik

MODELE LINIOWE. Dr Wioleta Drobik MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą

Bardziej szczegółowo

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas: ROZWIĄZANIA I ODPOWIEDZI Zadanie A1. Można założyć, że przy losowaniu trzech kul jednocześnie kolejność ich wylosowania nie jest istotna. A więc: Ω = 20 3. a) Niech: - wśród trzech wylosowanych opakowań

Bardziej szczegółowo

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe? 2 Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia czy pomiędzy zmiennymi istnieje związek/zależność. Stosujemy go w sytuacji, kiedy zmienna zależna mierzona jest na skali

Bardziej szczegółowo

Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak

Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak Autor prezentuje spójny obraz najczęściej stosowanych metod statystycznych, dodatkowo omawiając takie

Bardziej szczegółowo

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Testowanie hipotez statystycznych Hipotezą statystyczną jest dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Prawdziwość tego przypuszczenia

Bardziej szczegółowo

Metodologia badań psychologicznych

Metodologia badań psychologicznych Metodologia badań psychologicznych Lucyna Golińska SPOŁECZNA AKADEMIA NAUK Psychologia jako nauka empiryczna Wprowadzenie pojęć Wykład 5 Cele badań naukowych 1. Opis- (funkcja deskryptywna) procedura definiowania

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela

Statystyka w pracy badawczej nauczyciela Statystyka w pracy badawczej nauczyciela Wykład 1: Terminologia badań statystycznych dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka (1) Statystyka to nauka zajmująca się zbieraniem, badaniem

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi. Spis treści 1 Wstęp: generatywne algorytmy uczące 2 Gaussowska analiza dyskryminacyjna 2.1 Gaussowska analiza dyskryminacyjna a regresja logistyczna 3 Naiwny Klasyfikator Bayesa 3.1 Wygładzanie Laplace'a

Bardziej szczegółowo

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Modelowanie zmiennej jakościowej Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Ćwiczenia 8 Zmienna jakościowa 1 / 25 Zmienna jakościowa Zmienna ilościowa może zostać zmierzona

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematyczna Anna Janicka wykład IX, 25.04.2016 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Plan na dzisiaj 1. Hipoteza statystyczna 2. Test statystyczny 3. Błędy I-go i II-go rodzaju 4. Poziom istotności,

Bardziej szczegółowo

Statystyka matematyczna i ekonometria

Statystyka matematyczna i ekonometria Statystyka matematyczna i ekonometria prof. dr hab. inż. Jacek Mercik B4 pok. 55 jacek.mercik@pwr.wroc.pl (tylko z konta studenckiego z serwera PWr) Konsultacje, kontakt itp. Strona WWW Elementy wykładu.

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom

Bardziej szczegółowo

Wykład 11: Dane jakościowe. Rozkład χ 2. Test zgodności chi-kwadrat

Wykład 11: Dane jakościowe. Rozkład χ 2. Test zgodności chi-kwadrat Wykład 11: Dane jakościowe Obserwacje klasyfikujemy do klas Zliczamy liczbę obserwacji w każdej klasie Jeżeli są tylko dwie klasy, to jedną z nich możemy nazwać sukcesem, a drugą porażką. Generalnie, liczba

Bardziej szczegółowo

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28 Statystyka #5 Testowanie hipotez statystycznych Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik rok akademicki 2016/2017 1 / 28 Testowanie hipotez statystycznych 2 / 28 Testowanie hipotez statystycznych

Bardziej szczegółowo

Kilka uwag o testowaniu istotności współczynnika korelacji

Kilka uwag o testowaniu istotności współczynnika korelacji 341 Zeszyty Naukowe Wyższej Szkoły Bankowej we Wrocławiu Nr 20/2011 Piotr Peternek Uniwersytet Ekonomiczny we Wrocławiu Marek Kośny Uniwersytet Ekonomiczny we Wrocławiu Kilka uwag o testowaniu istotności

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

Własności estymatora parametru lambda transformacji potęgowej. Janusz Górczyński, Andrzej Zieliński, Wojciech Zieliński

Własności estymatora parametru lambda transformacji potęgowej. Janusz Górczyński, Andrzej Zieliński, Wojciech Zieliński Własności estymatora parametru lambda transformacji potęgowej Janusz Górczyński, Andrzej Zieliński, Wojciech Zieliński 1. Wstęp Najczęstszym powodem transformowania zmiennej losowej jest jej normalizacja,

Bardziej szczegółowo

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA Zadanie 0.1 Zmienna losowa X ma rozkład określony funkcją prawdopodobieństwa: x k 0 4 p k 1/3 1/6 1/ obliczyć EX, D X. (odp. 4/3;

Bardziej szczegółowo

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0 Testowanie hipotez Każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy nazywamy hipotezą statystyczną. Hipoteza określająca jedynie wartości nieznanych parametrów liczbowych badanej cechy

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Test zgodności i analiza wariancji Analiza wariancji Test zgodności Chi-kwadrat Sprawdza się za jego pomocą ZGODNOŚĆ ROZKŁADU EMPIRYCZNEGO Z PRÓBY Z ROZKŁADEM HIPOTETYCZNYM

Bardziej szczegółowo

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski Statystyczna analiza danych w programie STATISTICA (wykład ) Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW Weryfikacja (testowanie) hipotez statystycznych

Bardziej szczegółowo

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera

Bardziej szczegółowo

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski Narzędzia statystyczne i ekonometryczne Wykład 1 dr Paweł Baranowski Informacje organizacyjne Wydział Ek-Soc, pok. B-109 pawel@baranowski.edu.pl Strona: baranowski.edu.pl (w tym materiały) Konsultacje:

Bardziej szczegółowo

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA SPIS TEŚCI PRZEDMOWA...13 CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA 1. ZDARZENIA LOSOWE I PRAWDOPODOBIEŃSTWO...17 1.1. UWAGI WSTĘPNE... 17 1.2. ZDARZENIA LOSOWE... 17 1.3. RELACJE MIĘDZY ZDARZENIAMI... 18 1.4.

Bardziej szczegółowo

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15 VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie

Bardziej szczegółowo

System bonus-malus z mechanizmem korekty składki

System bonus-malus z mechanizmem korekty składki System bonus-malus z mechanizmem korekty składki mgr Kamil Gala Ubezpieczeniowy Fundusz Gwarancyjny dr hab. Wojciech Bijak, prof. SGH Ubezpieczeniowy Fundusz Gwarancyjny, Szkoła Główna Handlowa Zagadnienia

Bardziej szczegółowo

Regresja i Korelacja

Regresja i Korelacja Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: drzewa grubsze są z reguły wyższe, drewno iglaste o węższych słojach ma większą gęstość, impregnowane

Bardziej szczegółowo

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY SIGMA KWADRAT CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY Weryfikacja hipotez statystycznych Statystyka i demografia PROJEKT DOFINANSOWANY ZE ŚRODKÓW NARODOWEGO BANKU POLSKIEGO URZĄD STATYSTYCZNY

Bardziej szczegółowo

ANALIZA CZYNNIKOWA Przykład 1

ANALIZA CZYNNIKOWA Przykład 1 ANALIZA CZYNNIKOWA... stanowi zespół metod i procedur statystycznych pozwalających na badanie wzajemnych relacji między dużą liczbą zmiennych i wykrywanie ukrytych uwarunkowań, ktore wyjaśniają ich występowanie.

Bardziej szczegółowo

WYKŁAD 8 ANALIZA REGRESJI

WYKŁAD 8 ANALIZA REGRESJI WYKŁAD 8 ANALIZA REGRESJI Regresja 1. Metoda najmniejszych kwadratów-regresja prostoliniowa 2. Regresja krzywoliniowa 3. Estymacja liniowej funkcji regresji 4. Testy istotności współczynnika regresji liniowej

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4 Inne układy doświadczalne 1) Układ losowanych bloków Stosujemy, gdy podejrzewamy, że może występować systematyczna zmienność między powtórzeniami np. - zmienność

Bardziej szczegółowo

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu

Bardziej szczegółowo

Wykład 8 Dane kategoryczne

Wykład 8 Dane kategoryczne Wykład 8 Dane kategoryczne Wrocław, 19.04.2017r Zmienne kategoryczne 1 Przykłady zmiennych kategorycznych 2 Zmienne nominalne, zmienne ordynalne (porządkowe) 3 Zmienne dychotomiczne kodowanie zmiennych

Bardziej szczegółowo

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego Ze względu na jakość uzyskiwanych ocen parametrów strukturalnych modelu oraz weryfikację modelu, metoda najmniejszych

Bardziej szczegółowo

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Wykład 4: Wnioskowanie statystyczne Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Idea wnioskowania statystycznego Celem analizy statystycznej nie jest zwykle tylko

Bardziej szczegółowo

Metoda Johansena objaśnienia i przykłady

Metoda Johansena objaśnienia i przykłady Metoda Johansena objaśnienia i przykłady Model wektorowej autoregresji rzędu p, VAR(p), ma postad gdzie oznacza wektor zmiennych endogenicznych modelu. Model VAR jest stabilny, jeżeli dla, tzn. wielomian

Bardziej szczegółowo

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji Wykład 11. Metoda najmniejszych kwadratów Szukamy zależności Dane są wyniki pomiarów dwóch wielkości x i y: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Przypuśćmy, że nanieśliśmy je na wykres w układzie

Bardziej szczegółowo

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku Przykład 2 Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku Sondaż sieciowy analiza wyników badania sondażowego dotyczącego motywacji w drodze do sukcesu Cel badania: uzyskanie

Bardziej szczegółowo

Elementy statystyki STA - Wykład 5

Elementy statystyki STA - Wykład 5 STA - Wykład 5 Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza 1 ANOVA 2 Model jednoczynnikowej analizy wariancji Na model jednoczynnikowej analizy wariancji możemy traktować jako uogólnienie

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2 STATYSTYKA I DOŚWIADCZALNICTWO Wykład Parametry przedziałowe rozkładów ciągłych określane na podstawie próby (przedziały ufności) Przedział ufności dla średniej s X t( α;n 1),X + t( α;n 1) n s n t (α;

Bardziej szczegółowo

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem

Bardziej szczegółowo

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów: Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,

Bardziej szczegółowo

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW ODRZUCANIE WYNIKÓW OJEDYNCZYCH OMIARÓW W praktyce pomiarowej zdarzają się sytuacje gdy jeden z pomiarów odstaje od pozostałych. Jeżeli wykorzystamy fakt, że wyniki pomiarów są zmienną losową opisywaną

Bardziej szczegółowo

Podstawowe pojęcia statystyczne

Podstawowe pojęcia statystyczne Podstawowe pojęcia statystyczne Istnieją trzy rodzaje kłamstwa: przepowiadanie pogody, statystyka i komunikat dyplomatyczny Jean Rigaux Co to jest statystyka? Nauka o metodach ilościowych badania zjawisk

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna Badanie współzależności zmiennych Uwzględniając ilość zmiennych otrzymamy 4 odmiany zależności: Zmienna zależna jednowymiarowa oraz jedna

Bardziej szczegółowo

KARTA KURSU. Kod Punktacja ECTS* 1

KARTA KURSU. Kod Punktacja ECTS* 1 KARTA KURSU Nazwa Nazwa w j. ang. Wprowadzenie do statystyki Introduction to statistics Kod Punktacja ECTS* 1 Koordynator Prof. dr hab. Jerzy Wołek Zespół dydaktyczny Prof. dr hab. Jerzy Wołek doktoranci

Bardziej szczegółowo

Analiza statystyczna. Microsoft Excel 2010 PL.

Analiza statystyczna. Microsoft Excel 2010 PL. Analiza statystyczna. Microsoft Excel 2010 PL. Autor: Conrad Carlberg Zaufaj posiadanym danym! Microsoft Excel 2010 to ukochane narzędzie studentów, analityków, księgowych, menedżerów i prezesów. Uniwersalność

Bardziej szczegółowo

WNIOSKOWANIE STATYSTYCZNE

WNIOSKOWANIE STATYSTYCZNE STATYSTYKA WNIOSKOWANIE STATYSTYCZNE ESTYMACJA oszacowanie z pewną dokładnością wartości opisującej rozkład badanej cechy statystycznej. WERYFIKACJA HIPOTEZ sprawdzanie słuszności przypuszczeń dotyczących

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

Rozkłady dwuwymiarowe. Tablice dwudzielcze. Przykład (wstępny):

Rozkłady dwuwymiarowe. Tablice dwudzielcze. Przykład (wstępny): Rozkłady dwuwymiarowe Rozkłady brzegowe Rozkłady warunkowe Niezależność Kowariancja Współczynnik korelacji (Przykłady na tablicy) Tablice dwudzielcze Najprostsze tablice 2x2 : dwa rzędy i dwie kolumny

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej KATEDRA MATEMATYKI TEMAT PRACY: ROZKŁAD NORMALNY ROZKŁAD GAUSSA AUTOR: BARBARA MARDOSZ Kraków, styczeń 2008 Spis treści 1 Wprowadzenie 2 2 Definicja

Bardziej szczegółowo

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych. Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Hipotezy i Testy statystyczne Każde

Bardziej szczegółowo

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp. Sprawdzian 2. Zadanie 1. Za pomocą KMNK oszacowano następującą funkcję produkcji: Gdzie: P wartość produkcji, w tys. jp (jednostek pieniężnych) K wartość kapitału zaangażowanego w proces produkcji, w tys.

Bardziej szczegółowo

Analiza Współzależności

Analiza Współzależności Statystyka Opisowa z Demografią oraz Biostatystyka Analiza Współzależności Aleksander Denisiuk denisjuk@euh-e.edu.pl Elblaska Uczelnia Humanistyczno-Ekonomiczna ul. Lotnicza 2 82-300 Elblag oraz Biostatystyka

Bardziej szczegółowo

Dokładne i graniczne rozkłady statystyk z próby

Dokładne i graniczne rozkłady statystyk z próby Dokładne i graniczne rozkłady statystyk z próby Przypomnijmy Populacja Próba Wielkość N n Średnia Wariancja Odchylenie standardowe 4.2 Rozkład statystyki Mówimy, że rozkład statystyki (1) jest dokładny,

Bardziej szczegółowo

Regresja liniowa wprowadzenie

Regresja liniowa wprowadzenie Regresja liniowa wprowadzenie a) Model regresji liniowej ma postać: gdzie jest zmienną objaśnianą (zależną); są zmiennymi objaśniającymi (niezależnymi); natomiast są parametrami modelu. jest składnikiem

Bardziej szczegółowo