WPROWADZENIE ISTOTA ANALIZY KLAS UKRYTYCH RYS HISTORYCZNY ANALIZY KLAS UKRYTYCH KLASYFIKACJA MODELI KLAS UKRYTYCH...

Wielkość: px
Rozpocząć pokaz od strony:

Download "WPROWADZENIE... 3 1. ISTOTA ANALIZY KLAS UKRYTYCH... 4 2. RYS HISTORYCZNY ANALIZY KLAS UKRYTYCH... 5 3. KLASYFIKACJA MODELI KLAS UKRYTYCH..."

Transkrypt

1 SPIS TREŚCI WPROWADZENIE ISTOTA ANALIZY KLAS UKRYTYCH RYS HISTORYCZNY ANALIZY KLAS UKRYTYCH KLASYFIKACJA MODELI KLAS UKRYTYCH PODSTAWOWE ZAŁOŻENIA MODELU KLAS UKRYTYCH. ZAŁOŻENIE LOKALNEJ NIEZALEŻNOŚCI ESTYMACJA MODELU Z WYKORZYSTANIEM METODY NAJWIĘKSZEJ WIARYGODNOŚCI. OGRANICZENIA W ZASTOSOWANIU MNW ZAGADNIENIA SELEKCJI (WYBORU) MODELI KLASYCZNY MODEL KLAS UKRYTYCH DLA WSKAŹNIKÓW JAKOŚCIOWYCH (SKOKOWYCH) OCENA DOPASOWANIA MODELU PRZYKŁADY EMPIRYCZNE Z LITERATURY ZACHODNIEJ I POLSKIEJ PREZENTACJA GRAFICZNA WYNIKÓW ANALIZY ZASTOSOWANIE MODELU UKRYTYCH KLAS NA UŻYTEK PROCESÓW DEMOGRAFICZNYCH WYBRANE PROGRAMY KOMPUTEROWE LITERATURA

2 2

3 WPROWADZENIE Celem niniejszego opracowania jest przedstawienie wybranych zagadnień przedstawionych podczas seminarium szkoleniowego Basic and Advanced Topics in Modelling Generalized Linear Models with Latent Variables. ZA Spring Seminar 2003, które odbyło się w dniach marzec 2003 w Niemczech w Kolonii. Opracowanie nie zamieszcza przykładów własnych. Aplikacje takie są planowane w przyszłości. Tekst bazuje głownie na przykładach prezentowanych podczas szkolenia, jak również przykładzie zaczerpniętym z literatury demograficznej. Celem opracowania jest rozpowszechnianie informacji o nowych metodach i technikach badawczych i ich zastosowaniach. W ostatnich latach opublikowano wiele prac na temat ukrytych zmiennych (Latent Class LC) oraz skończonych mieszanych modeli 1 niż na temat jakichkolwiek innych modeli statystycznych. Ów wzrost zainteresowania w temacie LC spowodowany jest rozwojem zaawansowanych algorytmów komputerowych, które pozwalają dzisiejszym maszynom na przeprowadzenie analizy ukrytych klas na zbiorach danych zawierających więcej niż tylko kilka zmiennych. Co ciekawe, badacze coraz częściej zdają sobie sprawę z tego, że zastosowanie modeli ukrytych klas może dać przewagę nad tradycyjnymi podejściami analizy skupień, czy też analizy czynnikowej. W takich dyscyplinach jak: socjologia, ekonomia czy psychologia do badania zależności, czy związku między badanymi zmiennymi łatwo jest zastosować metody statystyczne, w sytuacji gdy mamy do czynienia z obserwowalnymi cechami mierzalnymi. Problem natomiast pojawia się, gdy w przypadku cech ukrytych, czyli takich, których nie da się bezpośrednio zmierzyć, a ich ocena jest subiektywna. Kolejnym zagadnieniem jest badanie charakteru i siły zależności między cechami niemierzalnymi (ukrytymi). 2 Przykładami zmiennych ukrytych są między innymi: preferencje, nastawienia, intencje zachowań czy cechy osobowości. Takiego rodzaju charakterystyki mogą zostać jedynie zmierzone pośrednio przez średnie obserwowalnych wskaźników; np. poprzez kwestionariusz skonstruowany w taki sposób, by otrzymać odpowiedzi powiązane z nastawieniem, czy preferencjami. Z tego też powodu rozwinięto różne techniki skalowania 1 Pod pojęciem modeli mieszanych rozumie się modele które zawierają zmienne o różnych rozkładach. 2 A. Bartkowiak Analiza struktur ukrytych 22/05/2002, str. 1 3

4 by dostarczyć informacje o nieobserwowalnych cechach używając wskaźników. Przykładem takich technik są modele z ukrytymi zmiennymi (latent class models) ISTOTA ANALIZY KLAS UKRYTYCH Analiza ukrytych klas jest metodą statystyczną służącą do odkrywania podtypów w powiązanych ze sobą wielowymiarowych kategorialnych cech. Ukryta klasa określa pewną abstrakcyjną cechę lub charakterystykę, która nie może być zaobserwowana bezpośrednio. Tak, więc jeśli ukryty konstrukt (construct) ma charakter skokowy, to znaczy cecha jest jakościowa i różnią się warianty w ramach danej zmiennej, to można potraktować każdą cechę jako ukrytą klasę. Podstawową ideą, 4 której podlega analiza ukrytych klas jest bardzo prosta: niektóre parametry w postulowanym statystycznym modelu różnią się, co do ukrytych podgrup. Te podgrupy tworzą warianty ukrytych zmiennych skokowych. Idea, o której była mowa na początku ma kilka pozornie niezwiązanych ze sobą zastosowań, z których najważniejszymi są: clustering, scaling, density estimation oraz random effect modelling. Poza naukami społecznymi modele ukrytych klas odnoszą się często do skończonych modeli mieszanych (finite mixture models). Modele klas ukrytych dostarczają niezwykle ważnego narzędzia do analizy danych wielowymiarowych (D.J. Bartholomew, M. Knott 2002). Modele te oferują ramy modelowe, wewnątrz których wiele ważnych metod może zostać połączonych ale też z których nowe metody mogą być rozwijane. Model statystyczny określa wspólny rozkład zbioru losowych zmiennych i staje się modelem z ukrytymi zmiennymi w momencie gdy niektóre z tych zmiennych są nieobserwowalne. Pytaniem jest dlaczego wprowadzana jest w ogóle ukryta zmienna do modelu oraz co wnosi jej obecność z punktu widzenia analizy naukowej? Pierwszą przyczyną zastosowania zmiennych ukrytych jest redukcja wymiarowości. Jeśli informacja zawarta we wzajemnej relacji wielu zmiennych może zostać wyrażona w pewnym dobrym przybliżeniu w znacznie mniejszym zbiorze zmiennych to zdolność badacza do wyjaśniania struktury danych zmiennych wzrośnie. Jest to generalna idea przyświecająca analizie czynnikowej czy też zastosowaniu liniowych modeli strukturalnych. Z kolei modele klas ukrytych odpowiedzą na pytanie w jaki sposób ograniczyć liczbę zmiennych z którymi mamy do czynienia na początku badania do znacznie mniejszej liczby wskaźników minimalizując przy tym stratę informacji. Po drugie 3 J. K Vermunt i J. Magidson Latent variable, str. 1 (www.statisticalinnovations.com) 4 J. Magidson, J.K. Vermunt A nontechnical introduction to latent class models 4

5 ukryte wielkości są obecnie niezbyt trudne do znalezienia, coraz powszechniejsze, w obszarach zastosowań metod statystycznych. Dotyczy to przede wszystkim nauk społecznych. Z formalnego statystycznego punktu widzenia nastąpił duży postęp jeśli chodzi o estymację i testowanie modeli ukrytych klas. Niektóre osiągnięcia w ekonometrii, biometrii i statystyce matematycznej na polu modeli skończonych (finite models), modeli z nieobserwowalną heterogenicznością (unobserved heterogeneity) czy też modeli losowych (random effects models) są blisko spokrewnione z modelami klas ukrytych. Ponadto w naukach społecznych i behawioralnych odkryty został bliski związek między modelami klas ukrytych a modelami logarytmiczno-liniwymi oraz związek między modelami klas ukrytych a modelami IRM (Item Response Modelling) (J. A. Hagenaars, A. L. McCutcheon 2002). Doprowadziło to do sytuacji, w której analiza klas ukrytych stała się postrzegana jako ogólny model z ukrytymi zmiennymi dla jakościowych zmiennych. Wreszcie analiza klas ukrytych dostarcza bardzo użytecznych narzędzi pozwalających znaleźć odpowiedź na wiele pytań w naukach społecznych i behavioralnych. Pomimo że obecnie dostępnych jest wiele programów, które w łatwy sposób pozwalają na zastosowanie modeli klas ukrytych to praktykujący badacze nie zawsze uważają analizę klas ukrytych jako dobrą alternatywę dla lepiej znanych technik, takich jak analiza czynnikowa czy modelowanie liniowe równań strukturalnych nawet w przypadku gdy analiza klas ukrytych jest bardziej właściwa do zastosowania w danej sytuacji. 2. RYS HISTORYCZNY ANALIZY KLAS UKRYTYCH Problem mierzenia relacji (związku) czy też braku niezależności między dwoma lub więcej obserwowalnymi (dycho- poli- tomicznymi) zmiennymi ma długą historię. Już w XIX wieku temat ten był podejmowany przez badaczy w różnych obszarach zastosowań (J. A. Hagenaars, A. L. McCutcheon 2002). Z kolei zastosowanie modeli klas ukrytych jako narzędzia pozwalającego na głębsze zrozumienie zaobserwowanego związku ma znacznie krótszą historię. Ciekawe jest jednak iż modele, które powstały wcześniej są odpowiednikami pewnych specjalnych odmian modeli klas ukrytych czy innych modeli struktur ukrytych. Jednakże główny rozwój modeli klas ukrytych datuje się na drugą połowę XX wieku, natomiast praktyczne zastosowanie tych modeli, na różnych polach badawczych, w ostatnim dwudziestopięcioleciu. 5

6 Analiza ukrytych klas została wprowadzona w 1950 roku przez Lazarfeld a, który użył tej techniki jako narzędzia do zbudowania pewnej typologii, segmentów na podstawie zaobserwowanych dychotomicznych zmiennych. Ponad 20 lat później w 1974 Goodman uczynił go użytecznym w praktyce dzięki rozwinięciu algorytmu pozwalającego otrzymać estymatory metody największej wiarogodności parametrów modelu. Ponadto zaproponował rozwinięcie dla politomicznych (polytomous) 5 zmiennych obserwowalnych oraz wielokrotnych ukrytych zmiennych. Goodman opracował również bardzo wiele w temacie identyfikacji modelu. W tym samym okresie Haberman (1979) pokazał związek pomiędzy modelami ukrytych klas oraz modelami logarytmiczno-liniowymi dla tabel częstości z brakującymi (nieznanymi) liczebnościami komórek. Od tamtego czasu zaproponowanych zostało bardzo wiele ważnych rozwinięć klasycznych modeli ukrytych klas, takich jak np. modeli zawierających ciągłe zmienne, lokalne niezależności, porządkowe zmienne, kilka ukrytych zmiennych oraz powtarzalne miary. Ogólne ramy dla analizy kategorialnych zmiennych ze skokowymi zmiennych ukrytymi zostały opracowane przez Hagenaars a (1990) i rozwinięte przez Vermunt a (1997). Podczas gdy w naukach społecznych modele ukrytych klas oraz modele mieszane są traktowane jako narzędzia używane głównie w analizie jakościowych danych, natomiast mogą one być z powodzeniem wykorzystywane również w kilku innych obszarach analiz. Jednym z nich jest estymacja funkcji gęstości, w której wykorzystuje się fakt, iż złożone funkcje gęstości mogą być przybliżane do ich kombinacji ze skończonymi elementami o prostszej funkcji gęstości. Analiza ukrytych klas może być również wykorzystywana jako narzędzie do probabilistycznej analizy skupień dla ciągłych zmiennych obserwowalnych. Jest to podejście oferujące wiele zalet w stosunku do tradycyjnych technik wykorzystywanych w analizie skupień takich jak segmentowanie za pomocą metody K- średnich. Kolejnym obszarem zastosowania jest zajmowanie się, radzenie sobie z nieobserwowalną heterogenicznością; np. w analizie regresji z zależnymi obserwacjami. 3. KLASYFIKACJA MODELI KLAS UKRYTYCH Model z ukrytymi zmiennymi jest nieliniową ścieżką analizy problemu. Ponadto model zawiera jedną lub więcej ukrytych zmiennych reprezentujących interesujące 5 zmienna politomiczna to zmienna z wieloma kategoriami w przeciwieństwie do zmiennej dychotomicznej, która posiada tylko dwie kategorie. 6

7 badającego charakterystyki, które nie są obserwowalne. Istnieją dwa podstawowe założenia definiujące przyczynowy mechanizm, któremu podlegają odpowiedzi. Pierwsze, zakłada się, że odpowiedzi dotyczące wskaźników są wynikiem wpływu jednostki na ukrytą zmienną. Po drugie zmienne obserwowalne nie mają ze sobą nic wspólnego po wprowadzeniu zmiennych ukrytych; co jest często referowane jako aksjomat lokalnej niezależności. Pozostałe dwa założenia dotyczą rozkładu ukrytych jak i obserwowalnych zmiennych. Rozkład tych zmiennych determinuje różne rodzaje modeli. Tak jak podaje Bartholomew wyróżniamy cztery główne rodzaje modeli: analiza czynnikowa (FACTOR ANALYSIS FA) analiza z ukrytymi charakterystykami (LATENT TRAIT ANALYSIS LTA) analiza z ukrytymi profilami (LATENT PROFILE ANALYIS LPA) analiza z ukrytymi zmiennymi (LATENT CLASS ANALYSIS LCA) Tablica 1. Klasyfikacja metod analizy klas ukrytych Zmienna ukryta Zmienna obserwowalna Ciągła Skokowa Ciągła FA LPA Skokowa LTA LCA Źródło: D.J. Bartholomew i M. Knott 2002, Latent Variable Models and Factor Analysis, str. 3 Jak pokazuje powyższe zestawienie, w FA oraz LTA zmienne ukryte są traktowane jako ciągłe o rozkładzie normalnym. Z kolei zmienne obserwowalne są ciągłe i w większości przypadków warunkowy rozkład zmiennych obserwowalnych dla danych ukrytych zmiennych jest zakładany jako normalny. Natomiast w przypadku LPA i LCA ukryte zmienne są skokowe i zakłada się, że pochodzą z rozkładu wielomianowego, natomiast zmienne niezależne (wskaźniki) obserwowalne są dychotomiczne, porządkowe czy też nominalne jakościowe, a ich rozkłady warunkowe mają rozkład dwu- lub wielomianowy. LPA oraz LCA składają się na analizę ukrytych struktur, opartej na założeniu, że zmienne obserwowalne są wskaźnikami pewnej ukrytej struktury. Głównym aspektem analizy jest powiązanie pomiędzy zmiennymi obserwowalnymi i ukrytymi, które można przedstawić za pomocą formalnych modeli matematycznych. Wspomniana analiza 7

8 ukrytych struktur powstała na potrzeby nauk społecznych; w socjologii służy mierzeniu postaw społecznych, w psychologii dotyczy raczej zdolności niż postaw a w ekonomii przy badaniu np. jakości życia, statusu ekonomicznego, opinii czy aktywności konsumenta. 6 Fundamentalnym założeniem we wspomnianej wcześniej typologii Bartholomew a jest rozróżnienie pomiędzy zmienną ciągłą i skokową. Badacz musi sam zadecydować czy bardziej naturalnym jest traktować zmienne jako ciągłe czy też skokowe. Jednakże jak wykazał Heinen (T. Hainen 1996), rozkład ukrytej ciągłej zmiennej może być aproksymowany przez rozkład skokowy, co pokazuje, że rozgraniczenie z początku tego akapitu nie jest wcale takie fundamentalne jakby można było początkowo sądzić. Specyfika rozkładów warunkowych zmiennych objaśniających wynika naturalnie z typu przyjętej skali. Dynamiczny rozwój modeli z ukrytymi zmiennymi w naturalny sposób skłania się ku temu by dopuścić różny rozkład dla każdej ze zmiennych. Mogą to być: rozkłady: normalny, t-studenta, lognormalny, gamma czy wykładniczy dla zmiennych ciągłych; rozkłady: dwumianowy dla dychotomicznych zmiennych, wielomianowy dla porządkowych i nominalnych oraz Poisson a, dwumianowy i dwumianowy odwrotny dla liczebności. Zależnie od tego czy zmienna ukryta jest traktowana jako ciągła czy skokowa otrzymuje się jedną z form modeli: LTA lub LCA. 7 Dotychczas omówiono modele klas ukrytych dla wskaźników jakościowych. Jednakże podstawowe założenie analizy ukrytych klas mówiące o tym, że parametry statystycznego modelu różnią się pomiędzy nieobserwowalnymi podgrupami, może również być nakładane na modele ze zmiennymi różnych typów skali. W literaturze przedmiotu wyodrębnia się 3 ważne typy aplikacji modeli klas ukrytych lub skończonych modeli mieszanych, które nie mieszczą się w ramach jakościowej analizy danych, a mianowicie: segmentacja ze zmiennymi ciągłymi, estymacja funkcji gęstości i modelowanie efektów losowych (random-effect modelling). W ciągu ostatnich 10 lat powróciło zainteresowanie analizą ukrytych klas jako narzędzia do analizy skupień z ciągłymi zmiennymi. Model ukrytych klas może być postrzegany jako probabilistyczny albo jako oparty na modelu (modelowy) wariant tradycyjnej niehierarchicznej procedury analizy skupień jak np. metoda K-średnich. Pokazano, że procedura segmentowania oparta na ukrytych klasach jest skuteczniejsza od 6 A. Bartkowiak..., str. 1 i 2 7 Ibidem, str. 2 8

9 większości tradycyjnych metod ad hoc. 8 Metoda ta znana jest jako: model ukrytego profilu (latent profile model), segmentowanie modelu mieszanego, oparte na modelu segmentowanie, ukryta analiza dyskryminacyjna oraz segmentowanie ukrytych klas. W podstawowej formule modelu prawdopodobieństwa zostały zastąpione przez gęstości. Z ciągłymi zmiennymi, klasowo wyszczególnione gęstości zazwyczaj są przyjmowane jako (ograniczone) wielowymiarowe normalne, gdzie każda ukryta klasa posiada swój własny średni wektor oraz macierz kowariancji. Innym ważnym zastosowaniem ukrytych klas jest nieparametryczny model efektów losowych. Leżący u podstaw pomysł polega na tym, że parametry modelu regresji mogą się różnić w obrębie nie obserwowalnych podgrup. Dla tego rodzaju analizy, do której często nawiązuje się jako do analizy regresji ukrytych klas, zmienna ukrytych klas (ukryta klasa) pełni rolę zmiennej uśredniającej (moderating). Owa metoda jest bardzo podobna do modeli regresji dla powtarzalnych miar lub zbiorów dwupoziomowych danych, z tą różnicą, że brak jest założenia dotyczącego rozkładu losowych czynników. Tradycyjne modele używane w analizie regresji, analizie dyskryminacyjnej czy logliniowej zawierają parametry, które opisują tylko zależności między obserwowalnymi zmiennymi. Modele ukrytych klas różnią się od poprzednio wspomnianych tym, że zawierają jedną lub więcej skokowych nie obserwowalnych zmiennych. W badaniach marketingowych interpretuje się kategorie ukrytych klas, (ukrytych zmiennych) jako segmenty. Wśród swoich zastosowań analiza ukrytych klas dostarcza nowego narzędzia, pomagającego zidentyfikować ważne segmenty rynkowe w marketingu. Ostatnio został wykryty bliski związek pomiędzy modelami ukrytych klas oraz modelami efektów losowych (random effects models REM). Ponadto uwidoczniło się również powiązanie między ukrytymi klasami a ukrytymi warstwami w najszerzej używanym modelu sieci neuronowych (multilayer perceptron MLP). Rozwój tych technik otworzył drogę do zastosowania modeli ukrytych klas w nieliniowej regresji dostarczając udoskonaleń, przewagi nad obecnymi podejściami REM i MLP jeśli chodzi o szybkość i skuteczność estymacji, a także interpretacji wyników. Modele ukrytych klas nie polegają założeniom tradycyjnego modelowania, które w praktyce są często naruszane; chodzi o liniowy związek, rozkład normalny czy homogeniczność. Stąd, są mniej podatne na obciążenia (dotyczące) związane z danymi, które nie podlegają modelowym założeniom. Również dla polepszenia opisu (i predykcji) 8 metody ad hoc nie zakładają z góry przed dokonaną analizą istnienie pewnych prawidłowości w analizowanych zmiennych np. ilość analizowanych klas. 9

10 segmentów, związek między ukrytymi klasami a zmiennymi (covariates) może być szacowany jednocześnie wraz z identyfikacją klas (segmentów). To pozwala na wyeliminowanie stosowanego zazwyczaj drugiego kroku analizy, w której analiza dyskryminacyjna jest przeprowadzana w celu powiązania segmentów lub czynników, otrzymanych tradycyjnymi metodami, z demograficznymi lub innymi zmiennymi. Ostatnio modele ukrytych klas zostały rozszerzone o zmienne o różnych typach skali (nominalne, porządkowe, ciągłe oraz liczebności) zawarte w tej samej analizie. Poniżej przedstawiono krótką charakterystykę 3-ch rodzajów modeli ukrytych klas. Analiza wykorzystująca te modele może być wykorzystana do analizy jako substytucyjna do tradycyjnych technik analizy skupień, jako narzędzie zastępujące tradycyjną analizę czynnikową redukującą wymiarowość, oraz jako narzędzie estymacji osobnych modeli regresji dla poszczególnych segmentów. Istnieją trzy główne obszary analizy z wykorzystaniem modeli ukrytych klas, które to obejmują: umieszczanie analizowanych przypadków w segmentach, redukcję zmiennych, konstrukcję skali oraz predykcję zmiennej zależnej. Można więc wyróżnić trzy główne rodzaje modeli ukrytych klas: modele ukrytych klas z wykorzystaniem segmentów (Latent Class Cluster Models) modele ukrytych klas z wykorzystaniem czynników (Latent Class Factor Models) modele ukrytych klas w regresji i modelach wyboru (Latent Class Regressioon and Choice Models). Modelowanie ukrytych klas z wykorzystaniem segmentacji polega na identyfikacji segmentów obejmujących jednostki obserwacji mających te same zainteresowania, charakteryzujących się takimi samymi postawami, zachowaniem czy wyznających te same wartości. LC Cluster Modele zawierają zmienną ukrytą o K kategoriach, z których każda reprezentuje segment. Przewagę jaką powyżej wspomniane modele mają nad tradycyjną analizą skupień to: klasyfikacja, przynależność bazuje na prawdopodobieństwach wyestymowanych bezpośrednio z modelu zmienne mogą być ciągłe, kategorialne (nominalne lub porządkowe) lub liczebności, lub ich dowolną kombinacją do opisu segmentów można używać zmiennych demograficznych oraz innych zmiennych objaśniających. 10

11 Tradycyjne podejście wykorzystują podejście algorytmu niekontrolowanego uczenia się (klasyfikacji), którego mechanizm polega na grupowaniu cech, które są blisko siebie biorąc przyjmując ad hoc definicję dystansu. W ostatniej dekadzie zainteresowanie przesunęło się w stronę modeli bazujących na podejściu wykorzystujących oszacowane prawdopodobieństwa do sklasyfikowania cech do odpowiedniej klasy. Najpopularniejszy model wykorzystuje podejście, w którym każda ukryta klasa reprezentuje ukryty segment. W badaniach marketingowych metoda ta nazywana jest ukrytą analizą dyskryminacyjną. W dzisiejszych czasach posiadając szybkie komputery w łatwy sposób można przeprowadzać te żmudne obliczeniowo analizy. W przypadku zmiennej ciągłej Magidson i Vermunt pokazali, że analiza ukrytych klas z wykorzystaniem klas daje taki sam wynik, jak w przypadku zastosowania algorytmu K - średnich. W przypadku modeli ukrytych klas z wykorzystaniem czynników: mamy do czynienia z identyfikacją czynników, które grupują ze sobą zmienne posiadające to samo źródło wariancji, model może zawierać kilka porządkowych ukrytych czynników, z których każdy ma 2 lub więcej poziomów, czynniki mogą być skorelowane lub nieskorelowane (ortogonalne). Zalety powyższych modeli nad tradycyjną analizą czynnikową są następujące: nie ma potrzeby obracania czynników by je interpretować, estymacja ocen czynników metodą największej wiarogodności są otrzymywane bezpośrednio z modelu bez nakładania dodatkowych założeń, zmienne mogą być ciągłe, jakościowe (nominalne lub porządkowe) lub liczebności, lub ich dowolną kombinacją, rozbudowane modele czynnikowe mogą być oszacowane zawierając zmienne objaśniające oraz skorelowane reszty. Z kolei tradycyjne podejście analizy czynnikowej stosowane przez badaczy marketingowych zawiera: szacowanie złożonych zmiennych z przedmiotów badań będących postawami, szacowanie perceptualnych map i wykresów wiążących ze sobą produkt i jego markę z zachowaniami, postawą oraz cechami demograficznymi jednostek, estymacja ocen faktorów, bezpośrednią konwersję, przejście od faktorów do segmentów. 11

12 Ponadto analiza ukrytych klas z wykorzystaniem czynników może być przeprowadzona dla mniejszej liczby zmiennych niż tradycyjna analiza czynnikowa. Na przykład: w przypadku tradycyjnej analizy czynnikowej potrzeba przynajmniej trzech zmiennych ciągłych i taka właśnie analiza biorąca pod uwagę 3 zmienne daje tylko jeden czynnik. Natomiast w przypadku modelu ze zmiennymi ukrytymi 3 zmienne dychotomiczne dostarczają 1 czynnik. Oczywiście analiza ukrytych klas z wykorzystaniem czynników nie ogranicza się tylko do zmiennych dychotomicznych, a włączenie do analizy dodatkowych zmiennych pozwala na identyfikowanie kolejnych czynników. Na przykład w analizie jednej lub dwóch ciągłych zmiennych, nawet bez zmiennych objaśniających może dostarczyć w rozwiązaniu 2 lub więcej czynników. Co więcej, wyniki dwuczynnikowego rozwiązania mogą być czytelnie zilustrowane graficznie. 9 Wreszcie model ukrytych klas w regresji, znany również jako model segmentacji ukrytych klas, charakteryzuje się tym, że: jest wykorzystywany do predykcji zależnej zmiennej będącej funkcją predyktorów, zawiera zmienną ukrytą o R-kategoriach, z których każda reprezentuje homogeniczną populację (klasę, segment), dla każdego z ukrytych segmentów można wyestymować inny model regresji, klasyfikuje cechy w segmenty i symultanicznie szacuje dla każdego z nich modele regresji. Zaletami, którymi może się podejście poszczycić, jest to, iż: osłabienie tradycyjnych założeń, mówiących o tym, że każdy model dla wszystkich cech zakłada R=1, co pozwala na oszacowanie osobnego modelu regresji dla każdego z segmentów, diagnostyczne statystyki pozwalają na określenie wartości dla R, w przypadku, gdy R>1, model może zostać rozszerzony o dodatkowe zmienne objaśniające, by przeprowadzona analiza była dokładniejsza i by przyporządkowanie do segmentu było bardziej klarowne. Typowe zastosowanie w marketingu tradycyjnego odpowiednika powyższego modelu ukrytych klas zawiera: 9 (Modele czynnikowe mogą mieć również zastosowanie, gdy mamy do czynienia z mierzeniem i klasyfikacją błędów w jakościowych zmiennych. Właściwie można to porównać do modeli ukrytych charakterystyk (IRT), w przypadku których nie jest wymagane założenie o normalności rozkładu charakterystyk (traits) poddanych analizie.) 12

13 studia, analiza satysfakcji klienta: identyfikację poszczególnych determinant satysfakcji klienta, które są odpowiednie dla każdego segmentu, wspólne studia: identyfikacja atrybutów produktów, które należą do różnych segmentów rynku, bardziej ogólnie: identyfikacja ukrytych segmentów, które mogą wyjaśnić nieobserwowalną heterogeniczność wśród danych. Zatem ogólnie rzecz biorąc, opisane modele (Latent Class Models) oferują ciekawe podejście badaczom, których obszarami zainteresowania jest szeroko pojęty marketing i identyfikacja segmentów rynkowych, ale nie tylko, mogą one również znaleźć zastosowanie w innych dziedzinach nauk społecznych i ekonomicznych. 4. PODSTAWOWE ZAŁOŻENIA MODELU KLAS UKRYTYCH. ZAŁOŻENIE LOKALNEJ NIEZALEŻNOŚCI Konstrukcja modelu Latent Class Model jest oparta na przyjęciu trzech założeń: Pierwsze - Liczebności klas - oznacza to, że klasy wykluczają się na wzajem, co implikuje to, że wszystkie osoby mogą być przyporządkowane jednej z nich, naturalnie z określonymi prawdopodobieństwami. Drugie - Określone przyporządkowane klasom prawdopodobieństwa (pozycje, przyszeregowania) spełniają: I Π i= 1 A' X i = 1 dla i = 1... I Π J j= 1 B' X j = 1 dla j = 1... J (1) gdzie: B X - prawdopodobieństwo zrealizowania się zdarzenia B; A X - prawdopodobieństwo zrealizowania się zdarzenia A. Każda z klas ma dla każdego wyrażenia wszystkich zaobserwowanych zmiennych określone prawdopodobieństwo = prawdopodobieństwo warunkowe. I właśnie te prawdopodobieństwa charakteryzują klasy, ich zróżnicowanie wewnątrz każdej z nich oraz pomiędzy nimi. Trzecie - Lokalna stochastyczna niezależność - oznacza to, że wewnątrz każdej z klas odpowiedzi respondentów na zmienne (pytania) są brane jako stochastycznie niezależne; co oznacza, że prawdopodobieństwo wszystkich odpowiedzi poszczególnej osoby wewnątrz klas równe jest produktowi prawdopodobieństwa jego pojedynczej odpowiedzi. 13

14 W modelu klas ukrytych brak jest ograniczającego założenia o liniowości, normalności rozkładu danych czy też jednorodności wariancji. Analiza ukrytych klas obejmuje analizę ukrytych charakterystyk (np. inteligencji, zadowolenia, postawy), czyli takich, których nie można bezpośrednio zmierzyć. Jednakże poprzez analizę zmiennych mierzalnych, manifestowanych i próbę znalezienia związku między tymi zmiennymi a ukrytą lub ukrytymi zmiennymi, które są właściwym obiektem badań. Badając np. dwie dychotomiczne zmienne w poniższej tablicy kontyngencji. Tablica 2. Tablica kontyngencji dla przykładu zwolenników dwóch seriali. Oglądam regularnie Tematy dnia Oglądam regularnie serial Strasznie miła rodzina Tak Nie Tak Nie Źródło: Prof. Herrmann, University of Mainz, Department of Marketing Sprawdzając zależność między tymi zmiennymi używając testu Chi-kwadrat otrzymujemy obliczoną statystykę na poziomie 197,6 przy 1 stopniu swobody, co oczywiście daje podstawy do odrzucenia hipotezy mówiącej o braku zależności między badanymi zmiennymi. Jaka jest przyczyna występowania tej zależności? W tej sytuacji należałoby się doszukiwać czegoś ukrytego, czegoś co nie jest mierzalne. Odpowiedź brzmi: ukryta zmienna. Ukryta zmienna odpowiada za przynależność respondentów do jednej z np. dwóch klas. Jeżeli zatem założymy, że ukryta wyrażana jest przez dwie klasy. Następnym krokiem przeprowadzenia analizy ukrytych klas jest wyznaczenie osobnej tablicy kontyngencji dla każdej z klas, tak aby wewnątrz klas zachowana została tzw. lokalna niezależność. Tablica 3a. Tablica kontyngencji dla KLASY NR1 300 osób Oglądam regularnie Tematy dnia Oglądam regularnie serial Strasznie miła rodzina Tak Nie Tak Nie

15 Źródło: jak w tablicy 2. Tablica 3b. Tablica kontyngencji dla KLASY NR2 500 osób Oglądam regularnie Tematy dnia Źródło: jak w tablicy 2. Oglądam regularnie serial Strasznie miła rodzina Tak Nie Tak Nie Obecność ukrytych klas jest przyczyną istnienia zależności między powyższymi zmiennymi. Przesłanką dla przeprowadzenia analizy są: tablica kontyngencji z obserwacjami, założenie o liczbie obserwacji w każdej z klas istnienie niezależności wewnątrz klas (każda z osób może być przyporządkowana tylko do jednej z klas). Z przedstawionego prostego przykładu wynika cel analizy ukrytych klas. Analiza ukrytych klas ma na celu znalezienie, zdefiniowanie odpowiedniej liczby klas, w których zaobserwowane zmienne są od siebie niezależne, co odpowiada tzw. lokalnej niezależności. Ponadto lokalna niezależność oznacza również niezależność wewnątrz każdej z klas. Chcąc wyprowadzić model z powyższego przykładu należy najpierw wprowadzić odpowiednie oznaczenia: A - zmienna - Oglądam regularnie serial Strasznie miła rodzina i - warianty zmiennej A B - zmienna - Oglądam regularnie Tematy dnia j - warianty zmiennej B X - zmienna ukryta t - warianty zmiennej X (t=1,...,t), w przykładzie T=2 П ij - prawdopodobieństwo, że respondent wybierze i-ty oraz j-ty wariant odpowiednio zmiennej A i B p ij - zaobserwowana wartość П ij Π ij = T Π i= 1 ABX ijt (2) 15

16 Zaobserwowane zmienne można wyrazić jako funkcję wielu nieznanych parametrów w postaci: ABX Π = X X B X Π Π A ' ' * ijt t it Π jt * (3) gdzie: wyrażenia po prawej stronie równania oznaczają odpowiednio: Π X t - prawdopodobieństwo przynależności do klasy t Π A ' X it - warunkowe prawdopodobieństwo, że respondent wybrał i-ty wariant zdarzenia A, pod warunkiem znalezienia się w klasie t Π B jt' X - warunkowe prawdopodobieństwo, że respondent wybrał j-ty wariant zdarzenia B, pod warunkiem znalezienia się w klasie t W przykładzie "telewizyjnym", załóżmy, że mielibyśmy dane wszystkie nieznane parametry: Zaobserwowana zmienna: p 11 = 93 / 800 = 0,116 Prawdopodobieństwo przynależności do klas: П X 1 = 300 / 800 = 0,375 П X 2 = 500 / 800 = 0,625 Warunkowe prawdopodobieństwa bycia w klasie 1: П A'X 11 = 0,2 П B'X 11 = 0,8 Warunkowe prawdopodobieństwa bycia w klasie 2: П A'X 12 = 0,9 П B'X 12 = 0,1 Łatwo podstawić do wzoru ogólnego powyższe współczynniki by otrzymać wartość prawdopodobieństwa Π 11 : Π 11 = Σ Π X t * Π A X B X it * Π jt 0,116 = 0,375*0,2*0,8 + 0,625*0,9*0,1 16

17 Jednakże nieznane są wartości parametrów znajdujących się po prawej stronie ogólnego wzoru, zatem najpierw muszą one zostać oszacowane przy pomocy użycia metody największej wiarogodności (Maximum Likelihood Estimation MLE). 5. ESTYMACJA MODELU Z WYKORZYSTANIEM METODY NAJWIĘKSZEJ WIARYGODNOŚCI. OGRANICZENIA W ZASTOSOWANIU MNW Niech I oznacza całkowitą liczbę wariantów możliwych odpowiedzi w L-wymiarowej tabeli częstości, tak że I = L l= 1 D l, oraz niech i oznacza konkretną daną wejściową, n i zaobserwowaną częstość w komórce i, oraz P(Y=y i ) prawdopodobieństwo posiadania schematu odpowiedzi komórki i. Do oszacowania parametrów modeli ukrytych klas używa się metody największej wiarogodności. Istotą MNW jest budowa funkcji wiarogodności, która jest maksymalizowana. Dla wygody obliczeń zazwyczaj wykorzystuje się logarytm funkcji wiarygodności który zapisuje się jako: I ln L = n ln P( Y = ) (4) i= 1 i y i Należy zauważyć, że tylko niezerowe zaobserwowane dane wejściowe odnoszą się do funkcji wiarogodności, jest to cecha którą wykorzystuje bardziej wydajne oprogramowanie stworzone do szacowania ukrytych klas, stworzone na przestrzeni ostatnich lat. Pierwszym z różnych problemów powstałych przy szacowaniu modeli ukrytych klas jest to, że parametry modelu mogą być niezidentyfikowane nawet, jeśli liczba stopni swobody jest większa lub równa zero. Nieidentyfikowalność oznacza różne zbiory wartości parametrów dają takie same maksimum funkcji log-wiarogodności albo inaczej mówiąc, że nie ma jedynego zbioru oszacowań parametrów. Formalnie sprawdza się identyfikację poprzez zidentyfikowanie dodatniej macierzy informacji. Kolejnym sposobem jest szacowanie modelu z różnymi zbiorami wartości (danych) początkowych. Poza rozwiązaniami lokalnymi zidentyfikowany model daje takie same wyniki dla każdego zbioru wartości początkowych. 17

18 Pomimo, że brak jest pewnych ogólnych zasad uwzględniających identyfikację modeli ukrytych zmiennych możliwe jest wyznaczenie konkretnych oczekiwań i wskazanie błędów (niezgodności). Przy braku ograniczeń dla analizy ukrytych klas potrzebne są co najmniej 3 wskaźniki, ale w przypadku gdy są one dychotomiczne to nie więcej niż 2 ukryte klasy mogą być zidentyfikowane. Należy uważać przy 4 dychotomicznych zmiennych, w którym to przypadku 3 klasowy model bez nałożonych ograniczeń jest niezidentyfikowany, pomimo, że posiada dodatnią liczbę stopni swobody. Z 5 dychotomicznymi wskaźnikami nawet pięcioklasowy model jest identyfikowalny. Zwykle możliwe jest osiągnięcie identyfikacji poprzez ograniczanie konkretnych parametrów modelu: np. ograniczenia P(Y l =1 X=1)=P(Y l =2 X=2) mogą być wykorzystane do zidentyfikowania modelu dwuklasowego z dwiema dychotomicznymi wskaźnikami. Drugi problem, który odnosi się do estymacji modeli ukrytych klas to obecność lokalnych maksimów. Funkcja log-wiarogodności modelu ukrytych klas nie zawsze jest wypukła, co oznacza rosnące (wstępujące) algorytmy mogą zbiegać się do innego maksimum zależnie od wartości początkowych. Zazwyczaj najlepszym sposobem jest więc, oszacować model przy użyciu różnych zbiorów losowych wartości początkowych. Zazwyczaj kilka zbiorów zbiega się do tej samej najwyższej wartości funkcji log-wiarogodności, które później mogą zostać przypisane rozwiązaniom największej wiarogodności. Niektóre programy zautomatyzowały używanie kilku zbiorów losowych wartości początkowych aby zredukować prawdopodobieństwo otrzymania rozwiązania lokalnego. Trzecim problemem w modelowaniu ukrytych klas jest pojawianie się rozwiązań granicznych, które są prawdopodobieństwami równymi 0 lub 1, albo log-liniowymi parametrami dążącymi do + lub nieskończoności. One to mogą powodować obliczeniowe problemy w szacowaniu algorytmów, pojawianie się rozwiązań lokalnych, komplikacje w obliczaniu (szacowaniu) standardowych błędów i liczby stopni swobody dla testów zgodności. Można zapobiec pojawianiu się rozwiązań granicznych poprzez narzucanie ograniczeń lub biorąc pod uwagę inne rodzaje wcześniej istniejących informacji o parametrach modelu. Najbardziej popularnymi metodami numerycznymi wykorzystywanymi w estymacji modeli są algorytmy EM-Expectation-Maximization oraz Newton-Raphson-NR. EM jest bardzo stabilną iteracyjną metodą do szacowania maksymalnej wiarogodności z niekompletnymi danymi. NR jest szybszą procedurą, jednakże aby funkcjonować potrzebuje dobrych wartości początkowych. Druga z tych metod wykorzystuje macierz 18

19 drugiego rzędu pochodnych funkcji log-wiarogodności, która jest również potrzebna dla otrzymania standardowych błędów parametrów modelu. 6. ZAGADNIENIA SELEKCJI (WYBORU) MODELI W przypadku modeli klas ukrytych niektóre z kryteriów oceny dopasowania modelu stały się w większym lub mniejszym stopniu standardowe. Cała procedura sprowadza się do sprawdzenia jak dobrze teoretyczne liczebności komórek replikują empiryczne zaobserwowane liczebności. Najczęściej używanymi testami są: Chi-kwadrat, likelihood ratio L 2, AIC oraz BIC 10. Wszystkie te testy sprowadzają się do porównywania między teoretycznymi częstościami reprezentowanymi przez oszacowane parametry modelu oraz zaobserwowanymi w danych empirycznych. Model klas ukrytych prowadzący do dużych rozbieżności między wspomnianymi częstościami jest nie do przyjęcia, oczywiście gdy teoretyczne częstości są zbliżone do zaobserwowanych to istnieje możliwość jego akceptacji i zastosowania. Modele z większą liczbą parametrów zazwyczaj dają lepsze dopasowanie do danych (teoretyczne częstości znajdują się bliżej zaobserwowanych). Modele z mniejszą liczbą parametrów dają nieco gorsze dopasowanie ale zadaniem badacza jest znalezienie najbardziej ubogiego (z jak najmniejszą liczbą szacowanych parametrów) modelu czyli jak najmniej skomplikowanego który reprezentuje akceptowalne (zadowalające) dopasowanie do zaobserwowanych danych. Istnieje kilka podejść estymacji dopasowania modeli ukrytych klas. Najczęściej używanym jest podejście wykorzystujące iloraz wiarygodności chi-kwadrat statystyki L 2 w celu oszacowania obszaru, w którym wyniki estymacji dla teoretycznych częstości Fˆ ijkl różnią się od korespondujących z nimi zaobserwowanych częstości f ijkl : = ijkl 2 L f ln( ˆ ijkl Fijkl / f ijkl) ) (5) Model jest dopasowany do danych, jeżeli wartość L 2 jest dostatecznie niska, biorąc pod uwagę powszechnie używany limit statystycznego błędu na poziome 0,05. Fˆ ijkl (częstości teoretyczne) są otrzymywane w wyniku dwustopniowego procesu. Najpierw otrzymywane są oszacowania największej wiarygodności parametrów modelu 10 AIC Akaike s Information Criterium; BIC Bayesian Information Criterium; opis tych miar został podany w dalszej części opracowania. 19

20 oraz zastępowane w prawej stronie równania (8) w celu otrzymania oszacowań prawdopodobieństw πˆ ijklt. Te oszacowania prawdopodobieństw są sumowane wewnątrz ukrytych klas w celu otrzymania teoretycznych prawdopodobieństw dla każdej z komórek w zaobserwowanej tablicy oraz pomnożone przez rozmiar próby N w celu otrzymania oszacowań największej wiarygodności dla teoretycznych częstości. T Fˆ ijkl = N ˆ π (6) t= 1 W przypadku, gdy ijklt Fˆ ijkl = f ijkl dla każdej komórki (i, j, k, l) model będzie idealnie dopasowany, a L 2 wyniesie 0. Gdy wartość L 2 przekracza 0, mierzy brak dopasowania modelu, kwantyfikując siłę związku (braku niezależności), która pozostaje niewyjaśniona przez model. Natomiast, kiedy N jest wystarczająco duże L 2 zbiega do rozkładu chikwadrat oraz liczba stopni swobody (DF) jest równa liczbie komórek w pełnym wielowymiarowym modelu minus liczba niezależnych parametrów M. W przypadku modelu z czterema kategorialnymi zmiennymi liczba komórek jest równa IJKL, a liczba parametrów: M = T 1+ T[( I 1) + ( J 1) + ( K 1) + ( L 1)] (7) M jest otrzymywane poprzez wyznaczenie T-1 niezależnych prawdopodobieństw ukrytych klas oraz dla każdej klasy I-1 warunkowych prawdopodobieństw powiązanych z kategoriami zmiennej A, J-1 niezależnych warunkowych prawdopodobieństwa powiązanych z B, itd. Ze względu na to, że prawdopodobieństwa sumują się do jedności prawdopodobieństwo powiązane z jedną kategorią każdej zmiennej jest odrzucane (stąd nie jest liczone jako niezależny parametr): może być zatem otrzymane jako jeden minus suma pozostałych. Jeżeli okazałoby się, że DF < 0 (degrees of freedom tj. stopnie swobody) wtedy model nie jest identyfikowalny, co oznacza, że niektóre oszacowania nie są dostępne dla wszystkich parametrów. Na przykład, dla I = J = K = L = 2, DF=-4 dla T = 4, co oznacza, że czteroklasowy model nie jest identyfikowalny. Jednakże w niektórych przypadkach może się zdarzyć, że DF > 0, a mimo to model nadal będzie nieidentyfikowalny. W przypadku, gdy mamy do czynienia z brakami danych w badaniu, rozkład chi-kwadrat nie powinien być używany do wyliczenia wartości p (p-value), ponieważ L 2 nie został właściwie przybliżony. Zamiast tego do estymacji p można użyć podejścia bootstrapowego. Z brakami danych mamy do czynienia w przypadku, gdy liczba zaobserwowanych zmiennych lub liczba kategorii tych zmiennych jest duża. W takiej 20

21 sytuacji liczba komórek w otrzymanej wielowymiarowej tablicy będzie duża odpowiednio do rozmiaru próby, z czego wynikają puste komórki. Braki danych również występują w przypadku, gdy modele ukrytych klas zostaną rozszerzone o zmienne ciągłe. Kolejnym podejściem oceniającym dopasowanie modelu w przypadku braku danych jest podejście wykorzystujące ważone kryterium informacyjne. Miary takie jak: AIC i BIC są szczególnie przydatne przy porównywaniu modeli. Najczęściej używaną jest statystyka BIC zdefiniowana jako BIC = L 2 ln(n) DF. Model z niższą wartością BIC jest preferowany bardziej niż ten z wartością wyższą. Inforamtion Criteria sprawdzają wiarygodność modeli estymowanych dla coraz to większej liczby parametrów wymagalnych do oszacowania bardziej pełnego modelu. Sprawdzają one wiarygodność poprzez redukcję będąc funkcją rosnącej liczby parametrów. Jeżeli model bazowy daje właściwe dopasowanie do danych, nie jest potrzebna analiza ukrytych klas, ponieważ nie istnieje związek między zmiennymi, który można wyjaśniać. W większości przypadków jest jednak tak, że model bazowy nie jest dobrze dopasowany do danych i L 2 służy jako podstawowa miara całkowitej zależności. To sugeruje trzecie podejście w szacowaniu dopasowania modeli ukrytych klas polegające na porównywaniu L 2 związanych z modelami ukrytych klas, dla których T > 1 z bazową wartością L 2 (H 0 ) w celu otrzymania procentu redukcji L 2. Tak więc skoro całkowita zależność może być skfantyfikowana przez L 2 (H 0 ), miara procentu redukcji reprezentuje całkowity związek wyjaśniony przez model. To mniej formalne podejście może być dopełnieniem dwóch pozostałych podejść, bardziej precyzyjnych, L 2 i BIC. Przykładem na to, jak wykorzystywać te miary niech będzie: załóżmy, że L 2 sugeruje, że trzyklasowy model prawie daje dokładne dopasowanie do niektórych danych (niech p=0,04), ale wyjaśnia 90% całkowitej zależności. Ponadto załóżmy, że czteroklasowy model jest najprostszym modelem, który jest dopasowany do danych zgodnie ze statystyką L 2, ale model ten wyjaśnia tylko 91% zależności. W tym przypadku na podstawie praktycznego podejścia trzyklasowy model zostanie wybrany, jako że wyjaśnia prawie tyle samo całkowitego związku. Kolejną miarą, która może być przydatna do oceny jakości modelu jest statystyka Crossie go-read a która jest wykorzystywana do walidacji chi-kwadrat modelu. Jeśli nie otrzyma się p-value podobnego jak w przypadku chi-kwadrat wtedy nie można uznać p- value wyznaczonego dla chi-kwadrat. 21

22 Standardowe błędy ocen parametrów służą do identyfikacji istotności parametrów i mogą być użyteczne przy diagnozowaniu modelu czy też jego modyfikacji. Statystyka Walda jest wykorzystywana do stwierdzenia statystycznej istotności zbioru oszacowanych parametrów dla danej zmiennej. Testuje ona hipotezę mówiącą o tym że wartości każdego z parametrów znajdujących się w zbiorze są równe zero wobec alternatywnej że są różne. 7. KLASYCZNY MODEL KLAS UKRYTYCH DLA WSKAŹNIKÓW JAKOŚCIOWYCH (SKOKOWYCH) W niniejszym opracowaniu skoncentrowano się na przedstawieniu jednego z modeli klas ukrytych określonego jako model klas ukrytych dla kategorialnych wskaźników w którym obie zmienne obserwowalna i nieobserwowalna są zmiennymi skokowymi. Tradycyjna analiza ukrytych klas zakłada, że każda obserwacja przynależy do jednej i tylko jednej T ukrytej (nieobserwowlanej) klasy oraz że istnieje lokalna niezależność między manifestowanymi zmiennymi. Oznacza to, że warunkowe przynależność do ukrytej klasy jest jednoznaczna z tym, że zaobserwowane zmienne są wzajemnie od siebie niezależne. Model ten może być wyrażony przy użyciu bezwarunkowych prawdopodobieństw przynależności do każdej ukrytej klasy oraz warunkowych prawdopodobieństw jako parametrów. Na przykład, w przypadku czterech nominalnych manifestowanych zmiennych A, B, C, D mamy: 11 gdzie ijklt X t A X it B X jt C X kt D X lt π = π π π π π (8) X π t oznacza prawdopodobieństwo znalezienia się w ukrytej klasie t = 1, 2, T ukrytej zmiennej X; π oznacza warunkowe prawdopodobieństwo otrzymania i-tego A X it wariantu odpowiedzi zmiennej A, pod warunkiem przynależności do klasy t; C X π, π, B X jt kt π dla j = 1, 2,..,J; k = 1, 2,,K; l = 1, 2,,L oznaczają odpowiednie warunkowe D X lt prawdopodobieństwa dla zmiennych B, C, D. Założony model może zostać opisany graficznie w postaci diagramu ścieżkowego (patrz poniżej). Ów diagram pokazuje, że manifestowane zmienne nie są połączone ze sobą 11 J. Vermunt, J. Magidson Latent Class Models, D. Kaplan (Ed) Handbook for Quantitative Methodology 22

23 w sposób bezpośredni, ale pośrednio przez zmienną X. Zakłada się, że ukryta zmienna wyjaśnia wszystkie zależności między manifestowanymi zmiennymi. Celem tradycyjnej analizy ukrytych klas jest determinacja jak najmniejszej liczby ukrytych klas T, które w wystarczający sposób wyjaśnią zaobserwowane zależności między manifestowanymi zmiennymi. Typowa analiza rozpoczyna się dostosowaniem T = 1 (jednoklasowego) bazowego modelu, który pokazuje wzajemną niezależność między zmiennymi. Model bazowy: π = π π π π (9) ijkl A i B j C k D l Zakłada się, że ten tak zwany zerowany model nie zapewnia dokładnego dopasowania do danych, natomiast jednowymiarowy model ukrytych klas z T = 2 jest dopasowany do danych. Proces ten jest kontynuowany poprzez dopasowywanie kolejnych modeli ukrytych klas, dodając za każdym razem kolejny wymiar poprzez zwiększenie liczby klas o 1, dopóki najprostszy model, który zapewnia dokładne dopasowanie, nie zostanie znaleziony. Dla przykładu: niech X reprezentuje zmienną ukrytą a Y l jedną z L zmiennych zaobserwowanych, gdzie 1 l L. Ponadto niech C będzie liczbą ukrytych klas a D l liczbą wariantów (poziomów) Y l. Poszczególne ukryte klasy są numerowane indeksami x, x=1,2...,c natomiast poszczególne Y l indeksami y l, y l =1,2..., D l. Wektorowy zapis Y oraz y jest używany do odniesienia się do schematu pełnej odpowiedzi. W celu przybliżenia, konkretyzacji teorii rozpatrzmy poniższy zbiór danych otrzymanych z General Social Survey 1987; Trzy dychotomiczne wskaźniki Y 1, Y 2, i Y 3 są odpowiedziami odpowiednio na pytania: czy pozwolić antyreligistom mówić (1=pozwolić, 2=nie pozwolić), czy pozwolić antyreligistom nauczać (1=pozwolić, 2=nie pozwolić), usunąć antyreligijne książki z biblioteki (1=usunąć, 2=nie usuwać). 23

24 Tablica 4. Fragment bazy danych z GSS Y 1 Y 2 Y 3 Częstość P(X=1 Y=y) P(X=2 Y=y) ,998, ,929, ,876, ,168, ,848, ,138, ,080, ,002,998 Źródło: jak w tablicy 6. Wykorzystując analizę ukrytych klas możliwa jest identyfikacja podgrup charakteryzujących się różnym stopniem tolerancji w stosunku do antyreligistów. Pojęciem leżącym u podstaw dowolnego typu z modeli ukrytych klas jest to, że prawdopodobieństwo otrzymania schematu odpowiedzi y, P(Y=y), jest średnią ważoną specyficznych dla C klas prawdopodobieństw P(Y=y X=x); co oznacza, że: C P( Y = y) = P( X = x) P( Y = y X = x) (10) x= 1 Gdzie, P(X=x) oznacza proporcję osób należących do klasy x. Podstawowa idea klasycznego modelu ukrytych klas jest powiązana z założeniem lokalnej niezależności. Zakłada się, że L manifestowanych zmiennych wziętych do analizy jest wzajemnie niezależne wewnątrz każdej z ukrytych klas. Można to zapisać przy pomocy następującej formuły: L P( Y = y X = x) = P( Y = y X = x) (11) l= 1 l l Po oszacowaniu prawdopodobieństwa warunkowej odpowiedzi P(Y l =y l X=x), porównanie tych prawdopodobieństw między klasami pokazuje jak klasy różnią się między sobą, co może zostać wykorzystane do nazwania klas. Z połączenia dwóch podstawowych równań [10] i [11] powstaje następujący model dla P(Y=y): C L P( Y = y) = P( X = x) P( Y = y X = x) (12) x= 1 l= 1 l l 24

25 Wyestymowany dwuklasowy model dla zbioru danych z powyższego przykładu daje następujące wyniki (por. zbiór danych z tablicy 4): Tablica 5. Wyniki modelu dwuklasowego. X=1 X=2 (tolerancyjni) (nietolerancyjni) P(X=x),62,38 P(Y 1 =1 X=x),96,23 P(Y 2 =1 X=x),74,04 P(Y 3 =1 X=x),92,24 Źródło: jak w tablicy 6. Klasy zawierają odpowiednio 62 oraz 38 procent jednostek. Widać ponadto, że klasa pierwsza nazwijmy ją (tolerancyjni) ze względu na znacznie wyższe prawdopodobieństwa odpowiedzenia tolerancyjnie na zadane pytania, wskaźniki niż jednostki należące do drugiej klasy - nietolerancyjni. Podobnie jak w analizie skupień, jednym z celów analizy ukrytych klas może być przyporządkowanie jednostek obserwacji do ukrytych klas. Prawdopodobieństwo przynależności do ukrytej klasy x do której często odnosi się prawdopodobieństwo przynależności a posteriori może zostać otrzymane zgodnie z regułą Bayes owską: P( X P( X = x) P( Y = y X = x) = xy = y) = (13) P( Y = y) Najczęściej spotykanym sposobem (regułą) klasyfikacji jest dostosowanie, które wydaje się być dostosowaniem (przyporządkowaniem) każdej z jednostek do ukrytej klasy z zachowaniem najwyższego prawdopodobieństwa P(X=x)P(Y=y X=x). Prawdopodobieństwa przynależności do klas pokazane w pierwszej tabeli wskazują na ludzi tolerancyjnych, którzy udzielili na co najmniej dwa pytania tolerancyjnej odpowiedzi i dlatego sklasyfikowani do klasy pierwszej ( tolerancyjni ). Haberman (S.J. Haberman 1979) pokazał, że model ukrytych klas może być również określony jako logliniowy model dla tabeli z brakami w komórkach, danych wejściowych, albo bardziej precyzyjnie jako model dla rozszerzonej tabeli zawierającej ukrytą zmienną X jako dodatkowy wymiar tejże tabeli. Powiązany logliniowy model dla P(X=x, Y=y) ma następującą postać: 25

26 ln P( X = x, Y L l= 1 L X Yl X, Yl = y) = β + β + β + β (14) x y l zawiera główny efekt, jednozmienne przypadki dla ukrytej zmiennej i wskaźników oraz dwuzmienne przypadki zawierające X i każdy ze wskaźników. Należy zauważyć, że przypadki z 2 lub więcej manifestowanymi zmiennymi są pominięte z racji założenia lokalnej niezależności. Związek pomiędzy logliniowymi parametrami a prawdopodobieństwem l= 1 warunkowej odpowiedzi reprezentuje poniższy wzór: P( Y l = y l Yl X, Yl ( β y + β ) l x, yl Yl X, Yl ( β β ) exp X = x) = Dl = exp + r 1 r x, r Ten zapis wskazuje, że logliniowe sformułowanie odnosi się do wyszczególnienia logitowego modelu dla każdego prawdopodobieństwa warunkowej odpowiedzi. Rodzaj użytego sformułowania ukrytych klas zaczyna mieć znaczenie w przypadku określenia ograniczeń (restrykcji). Pomimo, że ograniczenia nałożone na prawdopodobieństwo mogą czasami być transformowane na ograniczenia na logliniowe parametry i odwrotnie, istnieje wiele sytuacji, gdy jest to niemożliwe. Zostało zaproponowanych kilka modyfikacji podstawowego modelu ukrytych klas. Jedną z najważniejszych modyfikacji jest zawarcie zmiennych lub grupowanie zmiennych opisujących (prognozujących) zmienną ukrytą X. Zostało to osiągnięte dzięki określeniu multinominalnego modelu logitowego dla prawdopodobieństwa przynależności do ukrytej klasy x; tzn: exp P( X = x Z = z) = C exp x, y X K X, Zk ( γ x + γ ) k = x z 1 k X K X, Zk ( γ r + γ r zk ) r= 1 k = 1 l (15) (16) Gdzie z k wartość zmiennej k. Kolejną ważną modyfikacją jest powiązane z używaniem informacji do porządkowania kategorii. W schemacie log-liniowym ukrytej zmiennej, porządkowe ograniczenia mogą być narzucone poprzez struktury asocjacyjnego modelu (association model) dla dwuzmiennych warunków ograniczyć β X, yl X, yl x, y β l x X, yl x, yl l. Na przykład jeśli Y l jest porządkowym wskaźnikiem można β = y Podobne ograniczenia mogą być użyte dla ukrytej zmiennej. W przypadku gdy C-klasowy model nie pasuje do danych, założenie lokalnej niezależności nie jest spełnione dla jednej lub więcej par wskaźników. Powszechną metodą 26

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Etapy modelowania ekonometrycznego

Etapy modelowania ekonometrycznego Etapy modelowania ekonometrycznego jest podstawowym narzędziem badawczym, jakim posługuje się ekonometria. Stanowi on matematyczno-statystyczną formę zapisu prawidłowości statystycznej w zakresie rozkładu,

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

KADD Metoda najmniejszych kwadratów funkcje nieliniowe Metoda najmn. kwadr. - funkcje nieliniowe Metoda najmniejszych kwadratów Funkcje nieliniowe Procedura z redukcją kroku iteracji Przykłady zastosowań Dopasowanie funkcji wykładniczej Dopasowanie funkcji

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Testowanie hipotez statystycznych Hipotezą statystyczną jest dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Prawdziwość tego przypuszczenia

Bardziej szczegółowo

Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak

Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak Autor prezentuje spójny obraz najczęściej stosowanych metod statystycznych, dodatkowo omawiając takie

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela

Statystyka w pracy badawczej nauczyciela Statystyka w pracy badawczej nauczyciela Wykład 1: Terminologia badań statystycznych dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka (1) Statystyka to nauka zajmująca się zbieraniem, badaniem

Bardziej szczegółowo

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski Statystyczna analiza danych w programie STATISTICA (wykład ) Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW Weryfikacja (testowanie) hipotez statystycznych

Bardziej szczegółowo

Własności estymatora parametru lambda transformacji potęgowej. Janusz Górczyński, Andrzej Zieliński, Wojciech Zieliński

Własności estymatora parametru lambda transformacji potęgowej. Janusz Górczyński, Andrzej Zieliński, Wojciech Zieliński Własności estymatora parametru lambda transformacji potęgowej Janusz Górczyński, Andrzej Zieliński, Wojciech Zieliński 1. Wstęp Najczęstszym powodem transformowania zmiennej losowej jest jej normalizacja,

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA Zadanie 0.1 Zmienna losowa X ma rozkład określony funkcją prawdopodobieństwa: x k 0 4 p k 1/3 1/6 1/ obliczyć EX, D X. (odp. 4/3;

Bardziej szczegółowo

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW ODRZUCANIE WYNIKÓW OJEDYNCZYCH OMIARÓW W praktyce pomiarowej zdarzają się sytuacje gdy jeden z pomiarów odstaje od pozostałych. Jeżeli wykorzystamy fakt, że wyniki pomiarów są zmienną losową opisywaną

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2 STATYSTYKA I DOŚWIADCZALNICTWO Wykład Parametry przedziałowe rozkładów ciągłych określane na podstawie próby (przedziały ufności) Przedział ufności dla średniej s X t( α;n 1),X + t( α;n 1) n s n t (α;

Bardziej szczegółowo

System bonus-malus z mechanizmem korekty składki

System bonus-malus z mechanizmem korekty składki System bonus-malus z mechanizmem korekty składki mgr Kamil Gala Ubezpieczeniowy Fundusz Gwarancyjny dr hab. Wojciech Bijak, prof. SGH Ubezpieczeniowy Fundusz Gwarancyjny, Szkoła Główna Handlowa Zagadnienia

Bardziej szczegółowo

Analiza Współzależności

Analiza Współzależności Statystyka Opisowa z Demografią oraz Biostatystyka Analiza Współzależności Aleksander Denisiuk denisjuk@euh-e.edu.pl Elblaska Uczelnia Humanistyczno-Ekonomiczna ul. Lotnicza 2 82-300 Elblag oraz Biostatystyka

Bardziej szczegółowo

Metoda Johansena objaśnienia i przykłady

Metoda Johansena objaśnienia i przykłady Metoda Johansena objaśnienia i przykłady Model wektorowej autoregresji rzędu p, VAR(p), ma postad gdzie oznacza wektor zmiennych endogenicznych modelu. Model VAR jest stabilny, jeżeli dla, tzn. wielomian

Bardziej szczegółowo

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem

Bardziej szczegółowo

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna Badanie współzależności zmiennych Uwzględniając ilość zmiennych otrzymamy 4 odmiany zależności: Zmienna zależna jednowymiarowa oraz jedna

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski Narzędzia statystyczne i ekonometryczne Wykład 1 dr Paweł Baranowski Informacje organizacyjne Wydział Ek-Soc, pok. B-109 pawel@baranowski.edu.pl Strona: baranowski.edu.pl (w tym materiały) Konsultacje:

Bardziej szczegółowo

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp. Sprawdzian 2. Zadanie 1. Za pomocą KMNK oszacowano następującą funkcję produkcji: Gdzie: P wartość produkcji, w tys. jp (jednostek pieniężnych) K wartość kapitału zaangażowanego w proces produkcji, w tys.

Bardziej szczegółowo

Statystyka matematyczna Test χ 2. Wrocław, 18.03.2016r

Statystyka matematyczna Test χ 2. Wrocław, 18.03.2016r Statystyka matematyczna Test χ 2 Wrocław, 18.03.2016r Zakres stosowalności Testowanie zgodności Testowanie niezależności Test McNemara Test ilorazu szans Copyright 2014, Joanna Szyda ZAKRES STOSOWALNOŚCI

Bardziej szczegółowo

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych dr Piotr Sulewski POMORSKA AKADEMIA PEDAGOGICZNA W SŁUPSKU KATEDRA INFORMATYKI I STATYSTYKI Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych Wprowadzenie Obecnie bardzo

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Statystyka i Analiza Danych

Statystyka i Analiza Danych Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki -

Bardziej szczegółowo

SPIS TREŚCI. Do Czytelnika... 7

SPIS TREŚCI. Do Czytelnika... 7 SPIS TREŚCI Do Czytelnika.................................................. 7 Rozdział I. Wprowadzenie do analizy statystycznej.............. 11 1.1. Informacje ogólne..........................................

Bardziej szczegółowo

Oszacowanie i rozkład t

Oszacowanie i rozkład t Oszacowanie i rozkład t Marcin Zajenkowski Marcin Zajenkowski () Oszacowanie i rozkład t 1 / 31 Oszacowanie 1 Na podstawie danych z próby szacuje się wiele wartości w populacji, np.: jakie jest poparcie

Bardziej szczegółowo

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć: Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).

Bardziej szczegółowo

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej 7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach

Bardziej szczegółowo

Szkolenie Analiza przeżycia

Szkolenie Analiza przeżycia Analiza przeżycia program i cennik Łukasz Deryło Analizy statystyczne, szkolenia www.statystyka.c0.pl Analiza przeżycia - program i cennik Analiza przeżycia Co obejmuje? Analiza przeżycia (Survival analysis)

Bardziej szczegółowo

Sposoby prezentacji problemów w statystyce

Sposoby prezentacji problemów w statystyce S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki

Bardziej szczegółowo

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego Dorota Witkowska Szkoła Główna Gospodarstwa Wiejskiego w Warszawie Wprowadzenie Sztuczne

Bardziej szczegółowo

Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki

Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki Analiza czynnikowa Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki Budowa wskaźnika Indeks był banalny I miał wady: o Czy

Bardziej szczegółowo

Wykład 10 (12.05.08). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Wykład 10 (12.05.08). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego Wykład 10 (12.05.08). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego Przykład Cena metra kwadratowego (w tys. zł) z dla 14 losowo wybranych mieszkań w

Bardziej szczegółowo

MODEL STRUKTURALNY RELACJI MIĘDZY SATYSFAKCJĄ

MODEL STRUKTURALNY RELACJI MIĘDZY SATYSFAKCJĄ MODEL STRUKTURALNY RELACJI MIĘDZY SATYSFAKCJĄ I LOJALNOŚCIĄ WOBEC MARKI Adam Sagan Akademia Ekonomiczna w Krakowie, Katedra Analizy Rynku i Badań Marketingowych Wstęp Modelowanie strukturalne ma wielorakie

Bardziej szczegółowo

Proces badawczy schemat i zasady realizacji

Proces badawczy schemat i zasady realizacji Proces badawczy schemat i zasady realizacji Agata Górny Zaoczne Studia Doktoranckie z Ekonomii Warszawa, 14 grudnia 2014 Metodologia i metoda badawcza Metodologia Zadania metodologii Metodologia nauka

Bardziej szczegółowo

Wykorzystanie funkcji powiązań do pomiaru ryzyka rynkowego. Katarzyna Kuziak

Wykorzystanie funkcji powiązań do pomiaru ryzyka rynkowego. Katarzyna Kuziak Wykorzystanie funkcji powiązań do pomiaru ryzyka rynkowego Katarzyna Kuziak Cel: łączenie różnych rodzajów ryzyka rynkowego za pomocą wielowymiarowej funkcji powiązań 2 Ryzyko rynkowe W pomiarze ryzyka

Bardziej szczegółowo

Badanie opinii Omniwatch. Oferta badawcza

Badanie opinii Omniwatch. Oferta badawcza Badanie opinii Omniwatch Oferta badawcza Kim jesteśmy? SW Research Agencja badań rynku i opinii Rok założenia 2011 Wizerunek Firma oferująca profesjonalne rozwiązania badawcze, usługi analityczne i doradcze.

Bardziej szczegółowo

Wykład z dnia 8 lub 15 października 2014 roku

Wykład z dnia 8 lub 15 października 2014 roku Wykład z dnia 8 lub 15 października 2014 roku Istota i przedmiot statystyki oraz demografii. Prezentacja danych statystycznych Znaczenia słowa statystyka Znaczenie I - nazwa zbioru danych liczbowych prezentujących

Bardziej szczegółowo

kod nr w planie ECTS Przedmiot studiów PODSTAWY STATYSTYKI 7 2

kod nr w planie ECTS Przedmiot studiów PODSTAWY STATYSTYKI 7 2 kod nr w planie ECTS Przedmiot studiów PODSTAWY STATYSTYKI 7 2 Kierunek Turystyka i Rekreacja Poziom kształcenia II stopień Rok/Semestr 1/2 Typ przedmiotu (obowiązkowy/fakultatywny) obowiązkowy y/ ćwiczenia

Bardziej szczegółowo

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Analiza statystyczna trudności tekstu

Analiza statystyczna trudności tekstu Analiza statystyczna trudności tekstu Łukasz Dębowski ldebowsk@ipipan.waw.pl Problem badawczy Chcielibyśmy mieć wzór matematyczny,...... który dla dowolnego tekstu...... na podstawie pewnych statystyk......

Bardziej szczegółowo

Szkolenie Regresja liniowa

Szkolenie Regresja liniowa Szkolenie Regresja liniowa program i cennik Łukasz Deryło Analizy statystyczne, szkolenia www.statystyka.c0.pl Szkolenie Regresja liniowa Co to jest regresja liniowa? Regresja liniowa jest podstawową metodą

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Statystyka. Tematyka wykładów. Przykładowe pytania. dr Tomasz Giętkowski www.krajobraz.ukw.edu.pl. wersja 20.01.2013/13:40

Statystyka. Tematyka wykładów. Przykładowe pytania. dr Tomasz Giętkowski www.krajobraz.ukw.edu.pl. wersja 20.01.2013/13:40 Statystyka dr Tomasz Giętkowski www.krajobraz.ukw.edu.pl wersja 20.01.2013/13:40 Tematyka wykładów 1. Definicja statystyki 2. Populacja, próba 3. Skale pomiarowe 4. Miary położenia (klasyczne i pozycyjne)

Bardziej szczegółowo

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych 1 Laboratorium III: Testy statystyczne Spis treści Laboratorium III: Testy statystyczne... 1 Wiadomości ogólne... 2 1. Krótkie przypomnienie wiadomości na temat testów statystycznych... 2 1.1. Weryfikacja

Bardziej szczegółowo

Algorytmy genetyczne w interpolacji wielomianowej

Algorytmy genetyczne w interpolacji wielomianowej Algorytmy genetyczne w interpolacji wielomianowej (seminarium robocze) Seminarium Metod Inteligencji Obliczeniowej Warszawa 22 II 2006 mgr inż. Marcin Borkowski Plan: Przypomnienie algorytmu niszowego

Bardziej szczegółowo

Test lewostronny dla hipotezy zerowej:

Test lewostronny dla hipotezy zerowej: Poznajemy testowanie hipotez statystycznych w środowisku R Zajęcia z dnia 11 maja 2011 roku Najpierw teoria TESTY ISTOTNOŚCI WARTOŚCI ŚREDNIEJ W POPULACJI GENERALNEJ gdy znana jest wariancja!!! Test prawostronny

Bardziej szczegółowo

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota Ekonometria ćwiczenia 3 Prowadzący: Sebastian Czarnota Strona - niezbędnik http://sebastianczarnota.com/sgh/ Normalność rozkładu składnika losowego Brak normalności rozkładu nie odbija się na jakości otrzymywanych

Bardziej szczegółowo

III. ZMIENNE LOSOWE JEDNOWYMIAROWE

III. ZMIENNE LOSOWE JEDNOWYMIAROWE III. ZMIENNE LOSOWE JEDNOWYMIAROWE.. Zmienna losowa i pojęcie rozkładu prawdopodobieństwa W dotychczas rozpatrywanych przykładach każdemu zdarzeniu była przyporządkowana odpowiednia wartość liczbowa. Ta

Bardziej szczegółowo

Przedmiot statystyki. Graficzne przedstawienie danych.

Przedmiot statystyki. Graficzne przedstawienie danych. Przedmiot statystyki. Graficzne przedstawienie danych. dr Mariusz Grządziel 23 lutego 2009 Przedmiot statystyki Statystyka dzieli się na trzy części: -zbieranie danych; -opracowanie i kondensacja danych

Bardziej szczegółowo

(x j x)(y j ȳ) r xy =

(x j x)(y j ȳ) r xy = KORELACJA. WSPÓŁCZYNNIKI KORELACJI Gdy w badaniu mamy kilka cech, często interesujemy się stopniem powiązania tych cech między sobą. Pod słowem korelacja rozumiemy współzależność. Mówimy np. o korelacji

Bardziej szczegółowo

Proces modelowania zjawiska handlu zagranicznego towarami

Proces modelowania zjawiska handlu zagranicznego towarami Załącznik nr 1 do raportu końcowego z wykonania pracy badawczej pt. Handel zagraniczny w województwach (NTS2) realizowanej przez Centrum Badań i Edukacji Statystycznej z siedzibą w Jachrance na podstawie

Bardziej szczegółowo

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007 Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja

Bardziej szczegółowo

TABELE WIELODZIELCZE

TABELE WIELODZIELCZE TABELE WIELODZIELCZE W wielu badaniach gromadzimy dane będące liczebnościami. Przykładowo możemy klasyfikować chore zwierzęta w badanej próbie do różnych kategorii pod względem wieku, płci czy skali natężenia

Bardziej szczegółowo

Wykład 14 Test chi-kwadrat zgodności

Wykład 14 Test chi-kwadrat zgodności Wykład 14 Test chi-kwadrat zgodności Obserwacje klasyfikujemy do jakościowych klas Zliczamy liczbę obserwacji w każdej klasie Jeżeli są tylko dwie klasy, to liczba obserwacji w pierszej klasie ma rozkład

Bardziej szczegółowo

4.2. Statystyczne opracowanie zebranego materiału

4.2. Statystyczne opracowanie zebranego materiału 4.2. Statystyczne opracowanie zebranego materiału Zebrany i pogrupowany materiał badawczy należy poddać analizie statystycznej w celu dokonania pełnej i szczegółowej charakterystyki interesujących badacza

Bardziej szczegółowo

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych Regresja logistyczna i jej zastosowanie Model regresji logistycznej jest budowany za pomocą klasy Logistic programu WEKA. Jako danych wejściowych

Bardziej szczegółowo

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład-26.02.07. Przedmiot statystyki

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład-26.02.07. Przedmiot statystyki Przedmiot statystyki. Graficzne przedstawienie danych. Wykład-26.02.07 Statystyka dzieli się na trzy części: Przedmiot statystyki -zbieranie danych; -opracowanie i kondensacja danych (analiza danych);

Bardziej szczegółowo

I. OGÓLNE INFORMACJE PODSTAWOWE O PRZEDMIOCIE. Nie dotyczy. podstawowy i kierunkowy

I. OGÓLNE INFORMACJE PODSTAWOWE O PRZEDMIOCIE. Nie dotyczy. podstawowy i kierunkowy 1.1.1 Statystyka opisowa I. OGÓLNE INFORMACJE PODSTAWOWE O PRZEDMIOCIE STATYSTYKA OPISOWA Nazwa jednostki organizacyjnej prowadzącej kierunek: Kod przedmiotu: P6 Wydział Zamiejscowy w Ostrowie Wielkopolskim

Bardziej szczegółowo

Diagramy ERD. Model struktury danych jest najczęściej tworzony z wykorzystaniem diagramów pojęciowych (konceptualnych). Najpopularniejszym

Diagramy ERD. Model struktury danych jest najczęściej tworzony z wykorzystaniem diagramów pojęciowych (konceptualnych). Najpopularniejszym Diagramy ERD. Model struktury danych jest najczęściej tworzony z wykorzystaniem diagramów pojęciowych (konceptualnych). Najpopularniejszym konceptualnym modelem danych jest tzw. model związków encji (ERM

Bardziej szczegółowo

Analiza wariancji. dr Janusz Górczyński

Analiza wariancji. dr Janusz Górczyński Analiza wariancji dr Janusz Górczyński Wprowadzenie Powiedzmy, że badamy pewną populację π, w której cecha Y ma rozkład N o średniej m i odchyleniu standardowym σ. Powiedzmy dalej, że istnieje pewien czynnik

Bardziej szczegółowo

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1 Zadanie 1 a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1 b) W naszym przypadku populacja są inżynierowie w Tajlandii. Czy można jednak przypuszczać, że na zarobki kobiet-inżynierów

Bardziej szczegółowo

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych Przykłady: Błąd pomiarowy Wzrost, wydajność Temperatura ciała Zawartość różnych składników we

Bardziej szczegółowo

Zadania o numerze 4 z zestawów licencjat 2014.

Zadania o numerze 4 z zestawów licencjat 2014. Zadania o numerze 4 z zestawów licencjat 2014. W nawiasie przy zadaniu jego występowanie w numerze zestawu Spis treści (Z1, Z22, Z43) Definicja granicy ciągu. Obliczyć granicę:... 3 Definicja granicy ciągu...

Bardziej szczegółowo

Analiza zdarzeń Event studies

Analiza zdarzeń Event studies Analiza zdarzeń Event studies Dobromił Serwa akson.sgh.waw.pl/~dserwa/ef.htm Leratura Campbell J., Lo A., MacKinlay A.C.(997) he Econometrics of Financial Markets. Princeton Universy Press, Rozdział 4.

Bardziej szczegółowo

Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego

Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego Ewaluacja biegłości językowej Od pomiaru do sztuki pomiaru Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego Tomasz Żółtak Instytut Badań Edukacyjnych oraz

Bardziej szczegółowo

S t a t y s t y k a, część 3. Michał Żmihorski

S t a t y s t y k a, część 3. Michał Żmihorski S t a t y s t y k a, część 3 Michał Żmihorski Porównanie średnich -test T Założenia: Zmienne ciągłe (masa, temperatura) Dwie grupy (populacje) Rozkład normalny* Równe wariancje (homoscedasticity) w grupach

Bardziej szczegółowo

Scoring kredytowy w pigułce

Scoring kredytowy w pigułce Analiza danych Data mining Sterowanie jakością Analityka przez Internet Scoring kredytowy w pigułce Mariola Kapla Biuro Informacji Kredytowej S.A. StatSoft Polska Sp. z o.o. ul. Kraszewskiego 36 30-110

Bardziej szczegółowo

Pytanie: Kiedy do testowania hipotezy stosujemy rozkład normalny?

Pytanie: Kiedy do testowania hipotezy stosujemy rozkład normalny? Pytanie: Kiedy do testowania hipotezy stosujemy rozkład normalny? Gdy: badana cecha jest mierzalna (tzn. posiada rozkład ciągły); badana cecha posiada rozkład normalny; dysponujemy pojedynczym wynikiem;

Bardziej szczegółowo

Przykład 1 ceny mieszkań

Przykład 1 ceny mieszkań Przykład ceny mieszkań Przykład ceny mieszkań Model ekonometryczny zaleŝności ceny mieszkań od metraŝu - naleŝy do klasy modeli nieliniowych. - weryfikację empiryczną modelu przeprowadzono na przykładzie

Bardziej szczegółowo

POLITECHNIKA WARSZAWSKA

POLITECHNIKA WARSZAWSKA POLITECHNIKA WARSZAWSKA WYDZIAŁ BUDOWNICTWA, MECHANIKI I PETROCHEMII INSTYTUT INŻYNIERII MECHANICZNEJ STATYSTYCZNA KONTROLA PROCESU (SPC) Ocena i weryfikacja statystyczna założeń przyjętych przy sporządzaniu

Bardziej szczegółowo

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00±0,20)

Bardziej szczegółowo

dr Dominik M. Marciniak Analizy statystyczne w pracach naukowych czego unikać, na co zwracać uwagę.

dr Dominik M. Marciniak Analizy statystyczne w pracach naukowych czego unikać, na co zwracać uwagę. dr Dominik M. Marciniak Analizy statystyczne w pracach naukowych czego unikać, na co zwracać uwagę. Statistics in academic papers, what to avoid and what to focus on. Uniwersytet Medyczny im. Piastów Śląskich

Bardziej szczegółowo

Z Wikipedii, wolnej encyklopedii.

Z Wikipedii, wolnej encyklopedii. Rozkład normalny Rozkład normalny jest niezwykle ważnym rozkładem prawdopodobieństwa w wielu dziedzinach. Nazywa się go także rozkładem Gaussa, w szczególności w fizyce i inżynierii. W zasadzie jest to

Bardziej szczegółowo

ANALIZA STATYSTYCZNA WYNIKÓW BADAŃ

ANALIZA STATYSTYCZNA WYNIKÓW BADAŃ ANALIZA STATYSTYCZNA WYNIKÓW BADAŃ Dopasowanie rozkładów Dopasowanie rozkładów- ogólny cel Porównanie średnich dwóch zmiennych 2 zmienne posiadają rozkład normalny -> test parametryczny (t- studenta) 2

Bardziej szczegółowo

Matematyka ubezpieczeń majątkowych 1.10.2012 r.

Matematyka ubezpieczeń majątkowych 1.10.2012 r. Zadanie. W pewnej populacji każde ryzyko charakteryzuje się trzema parametrami q, b oraz v, o następującym znaczeniu: parametr q to prawdopodobieństwo, że do szkody dojdzie (może zajść co najwyżej jedna

Bardziej szczegółowo

ZAGADNIENIE TRANSPORTOWE

ZAGADNIENIE TRANSPORTOWE ZAGADNIENIE TRANSPORTOWE ZT jest specyficznym problemem z zakresu zastosowań programowania liniowego. ZT wykorzystuje się najczęściej do: optymalnego planowania transportu towarów, przy minimalizacji kosztów,

Bardziej szczegółowo

STATYSTYKA wykład 5-6

STATYSTYKA wykład 5-6 TATYTYKA wykład 5-6 Twierdzenia graniczne Rozkłady statystyk z próby Wanda Olech Twierdzenia graniczne Jeżeli rozpatrujemy ciąg zmiennych losowych {X ; X ;...; X n }, to zdarza się, że ich rozkłady przy

Bardziej szczegółowo

STATYSTYKA Statistics. Inżynieria Środowiska. II stopień ogólnoakademicki

STATYSTYKA Statistics. Inżynieria Środowiska. II stopień ogólnoakademicki Załącznik nr 7 do Zarządzenia Rektora nr../12 z dnia.... 2012r. KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2012/13 STATYSTYKA

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 3. Zmienne losowe 4. Populacje i próby danych 5. Testowanie hipotez i estymacja parametrów 6. Test t 7. Test

Bardziej szczegółowo

Wykład z modelowania matematycznego. Zagadnienie transportowe.

Wykład z modelowania matematycznego. Zagadnienie transportowe. Wykład z modelowania matematycznego. Zagadnienie transportowe. 1 Zagadnienie transportowe zostało sformułowane w 1941 przez F.L.Hitchcocka. Metoda rozwiązania tego zagadnienia zwana algorytmem transportowymópracowana

Bardziej szczegółowo

Klasyfikacja metodą Bayesa

Klasyfikacja metodą Bayesa Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo

Bardziej szczegółowo

Quick Launch Manual:

Quick Launch Manual: egresja Odds atio Quick Launch Manual: regresja logistyczna i odds ratio Uniwesytet Warszawski, Matematyka 28.10.2009 Plan prezentacji egresja Odds atio 1 2 egresja egresja logistyczna 3 Odds atio 4 5

Bardziej szczegółowo

Jak przekształcać zmienne jakościowe?

Jak przekształcać zmienne jakościowe? Data Preparation Jak przekształcać zmienne jakościowe? Marta Płonka Predictive Solutions W ostatnim artykule zobaczyliśmy, jak sprawdzić, czy między wybranymi przez nas predyktorami a zmienną przewidywaną

Bardziej szczegółowo

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW Dwuczynnikowa analiza wariancji (2-way

Bardziej szczegółowo

Badanie opinii Warsaw Watch. Oferta badawcza

Badanie opinii Warsaw Watch. Oferta badawcza Badanie opinii Warsaw Watch Oferta badawcza Kim jesteśmy? SW Research Agencja badań rynku i opinii Rok założenia 2011 Wizerunek Firma oferująca profesjonalne rozwiązania badawcze, usługi analityczne i

Bardziej szczegółowo

ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak

ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak Tytuł: Autor: ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak Wstęp Zaawansowane metody analiz statystycznych przenoszą analizy statystyczne na kolejny wyższy poziom. Określenie tego wyższego

Bardziej szczegółowo

Analiza składowych głównych idea

Analiza składowych głównych idea Analiza składowych głównych idea Analiza składowych głównych jest najczęściej używanym narzędziem eksploracyjnej analizy danych. Na metodę tę można spojrzeć jak na pewną technikę redukcji wymiarowości

Bardziej szczegółowo