Projektowanie, ocena i wykorzystanie danych rynkowych
|
|
- Edward Tomczak
- 9 lat temu
- Przeglądów:
Transkrypt
1 Nr 51 Projektowanie, ocena i wykorzystanie danych rynkowych Redaktor naukowy Józef Dziechciarz
2 Spis treści Wstęp Sylwester Białowąs, Kolejność pytań w kwestionariuszu wywiadu osobistego a zniekształcenia pomiaru wywołane heurystyką zakotwiczenia Marta Dziechciarz, Podejścia do oceny atrakcyjności segmentów rynku jako etapu kończącego proces segmentacji rynku Bartłomiej Jefmański, Rozmyta metoda k-średnich w identyfikacji przynależności obiektów do segmentów rynkowych na przykładzie rynku samochodowego Iwona Kasprzyk, Wykorzystanie konfiguracyjnej analizy częstości w analizie klas ukrytych Jolanta Kowal, Wybrane teoretyczne i praktyczne aspekty metodologii badań jakościowych Magdalena Kowalska-Musiał, Relacje partnerskie w układach diadycznych ocena i analiza danych Mariusz Łapczyński, Modele hybrydowe CART-LOGIT w analizie danych rynkowych Roman Pawlukowicz, Średnia arytmetyczna cen transakcyjnych nieruchomości a wartość rynkowa nieruchomości Marcin Pełka, Porównanie strategii klasyfikacji danych symbolicznych Adam Sagan, Metaanaliza danych w marketingu zorientowanym na dowody orientacja kliniczna w badaniach rynkowych i marketingowych Piotr Tarka, Zastosowanie analizy regresji i sztucznych sieci neuronowych w badaniach satysfakcji klientów Barbara Worek, Rzetelność i trafność w badaniach jakościowych: ocena jakości danych Summaries Sylwester Białowąs, The anchoring heuristic and the bias of the measurement in marketing research Marta Dziechciarz, Determining the attractiveness of market segments as the ending step of segmentation process Bartłomiej Jefmański, Fuzzy c-means in market segments membership identification a car market example Iwona Kasprzyk, Application of configural frequency analysis in latent class analysis... 45
3 6 Spis treści Jolanta Kowal, Some chosen theoretical and practical aspects of qualitative research Magdalena Kowalska-Musiał, Dyadic relationship data evaluation and analysis Mariusz Łapczyński, The hybrid CART-LOGIT models in analysing market data Roman Pawlukowicz, Arithmetic mean of transactional prices of properties and property s market value Marcin Pełka, Comparison of symbolic data clustering strategies Adam Sagan, Meta-analysis in evidence-based marketing: clinical orientation in marketing research Piotr Tarka, Artificial neural networks and regression comparison analysis within customer satisfaction data Barbara Worek, Reliability and validity in qualitative research: data quality evaluation
4 prace naukowe uniwersytetu ekonomicznego we wrocławiu Nr Projektowanie, ocena i wykorzystanie danych rynkowych Mariusz Łapczyński Uniwersytet Ekonomiczny w Krakowie MODELE HYBRYDOWE CART-LOGIT W ANALIZIE DANYCH RYNKOWYCH 1. Wstęp Celem artykułu jest omówienie hybrydowego podejścia CART-LOGIT do budowy modeli predykcyjnych w badaniach marketingowych. Modele zbudowane za pomocą narzędzi data mining CART i RandomForests, model regresji logistycznej oraz dwa powstałe w podejściu dwufazowym CART/RandomForests-LOGIT zostaną porównane z modelami hybrydowymi łączącymi drzewa klasyfikacyjne CART z regresją logistyczną. Przykład opiera się na zbiorze danych zebranych w trakcie badań ankietowych zrealizowanych w czerwcu i lipcu 2005 r. Celem tych badań była próba modelowania preferencji konsumentów na rynku samochodów osobowych 1. Rozważania zawężono do tzw. deklarowanych preferencji (stated preferences), które w odróżnieniu od preferencji ujawnionych (revealed preferences) nie są rzeczywistymi aktami zakupu, a jedynie wyrażeniem gotowości do nabycia przez respondentów danej kategorii/marki produktu. Zestaw zmiennych objaśniających obejmował pozycje ze skali wartości LOV (list of values), preferowane atrybuty samochodu ze skali struktury korzyści (BSA) oraz zmienne demograficzne respondentów. 2. Model zbudowany przy użyciu drzew klasyfikacyjnych CART Drzewa klasyfikacyjne CART 2 to narzędzie analityczne data mining, które jest uznawane za najbardziej zaawansowaną metodę podziału rekurencyjnego. Mimo że metoda ta powstała na początku lat osiemdziesiątych ubiegłego wieku, to do dziś 1 Opisane w dalszej części pracy wyniki badań dotyczą nowych i używanych samochodów osobowych, których cena wynosi w przybliżeniu 40 tys. zł. 2 Pierwsza praca poświęcona algorytmowi CART to pozycja [Breiman i in. 1984]. W literaturze polskiej najpopularniejsza praca to [Gatnar 2001].
5 86 Mariusz Łapczyński doczekała się tylko nieznacznych modyfikacji. Próbowano wprawdzie stworzyć bayesowski CART [Chapman, George, McCulloch 1998, s ], dokonywano jego modyfikacji w NASA (pakiet IND) [Buntine 1992]; usiłowano także udoskonalić podział drzew (FACT) [Loh, Vanichsetakul 1988, s ] poprzez połączenie właściwości CART i liniowej analizy dyskryminacyjnej; podejmowano próby zastąpienia wielokrotnej walidacji krzyżowej metodą Monte Carlo [Crawford 1989, s ]; jednak rdzeń metody z jego nowatorskimi rozwiązaniami do dziś pozostał niezmieniony. Model predykcyjny zbudowany za pomocą drzew klasyfikacyjnych CART miał 17 liści i był głęboki na 8 poziomów. Jakość mierzona odsetkiem poprawnie sklasyfikowanych przypadków została przedstawiona w tab. 1. Tabela 1. Macierz błędnych klasyfikacji dla modelu CART CART / 10CV / a priori szacowane procent poprawnych klasyfikacji 70,43% Obserwowana UŻYWANY 232 (88,21%) 31 (11,79%) Obserwowana NOWY 105 (53,30%) 92 (46,70%) Ranking ważności predyktorów obejmował fazę 1, 4 i 5 cyklu życia rodziny, pozycje ze skali LOV (poczucie spełnienia i poczucie przynależności) oraz pozycje ze skali struktury korzyści (funkcjonalność, komfort, osiągi techniczne i bezpieczeństwo). 3. Model zbudowany za pomocą narzędzia RandomForests Losowy las (RandomForests) to narzędzie analityczne data mining, które buduje wiele modeli o strukturze drzewa w trakcie jednej analizy. Spośród dużej liczby drzew (tzw. lasu) wybierane jest to, które zapewnia najwyższą trafność predykcji mierzoną odsetkiem poprawnie sklasyfikowanych przypadków. Procedura analityczna składa się z trzech etapów [Breiman, Cutler, s. 3]: 1. Ze zbioru danych L o liczebności n losuje się w sposób prosty niezależny (ze zwracaniem) próbę liczącą n przypadków; powstaje w ten sposób podpróba bootstrapowa (L 1, L 2,, L k ), wykorzystana do zbudowania pojedynczego modelu. 2. Z całego zbioru M zmiennych niezależnych losuje się zestaw m zmiennych (gdzie m < M); losowanie to przeprowadza się na każdym etapie podziału pojedynczych modeli, przy czym ustalona na początku wartość m pozostaje niezmieniona przez cały czas trwania analizy. 3. Każdy model budowany jest do maksymalnie dużych rozmiarów (mimo że używa się tu algorytmu CART, to jednak nie korzysta się z opcji przycinania).
6 Modele hybrydowe cart-logit w analizie danych rynkowych 87 Schemat powstawania losowego lasu przedstawiono na rys. 1. Zbiór obserwacji L Liczba zmiennych objaśniających M = 5 (a, b, c, d, e) niech m = 2 Podpróba bootstrapowa L 1 Podpróba bootstrapowa L 2.. Podpróba bootstrapowa L k m = 2 {a,b} m = 2 {c,e} m = 2 {a,d} Źródło: opracowanie własne. Rys. 1. Schemat powstawania losowego lasu Predykcja przynależności nowych obiektów do klas (wariantów zmiennej zależnej) odbywa się na podstawie klasyfikacji pojedynczych drzew z losowego lasu. Przy ocenie poszczególnych rozwiązań stosuje się zasadę majoryzacji zbiorów, która polega na tym, że liść drzewa otrzymuje etykietę od klasy występującej w nim najliczniej. W literaturze anglojęzycznej proces ten nosi nazwę głosowania (voting), co należałoby tu wyjaśnić jako oddawanie głosów przez poszczególne modele na przypisanie obiektu do danej klasy. Tabela 2. Macierz błędnych klasyfikacji dla modelu RandomForests RF/ 5 zmiennych / 100 drzew procent poprawnych klasyfikacji 76,43% Obserwowana UŻYWANY 151 (87,28%) 22 (12,72%) Obserwowana NOWY 52 (36,88%) 89 (63,12%) W tym wypadku model cechuje się dosyć wysokim odsetkiem poprawnych klasyfikacji (tab. 2). Na liście zmiennych objaśniających o największej liczbie punktów w rankingu ważności predyktorów znajdują się: płeć (kobieta), wykształcenie (średnie), faza 1 i 5 cyklu życia rodziny, pozycje ze skali LOV (bezpieczeństwo, szacunek dla samego siebie, serdeczne stosunki z innymi, poczucie przynależności) oraz pozycje ze skali struktury korzyści (komfort, koszty eksploatacji).
7 88 Mariusz Łapczyński 4. Model zbudowany z zastosowaniem regresji logistycznej Regresja logistyczna jest matematycznym podejściem modelowym opisującym zależność między zestawem zmiennych niezależnych a jakościową dychotomiczną zmienną zależną. Ze względu na prostotę tego popularnego narzędzia pominięto jego opis, koncentrując się wyłącznie na wynikach analizy. Rozwiązanie jest istotne statystycznie (p = 0,000), a wśród zmiennych objaśniających włączonych do modelu znalazły się 3 : funkcjonalność ze skali struktury korzyści (0,65), płeć kobieta (3,82), faza 1 cyklu życia rodziny (0,21), faza 2 cyklu życia rodziny (0,24) i faza 3 cyklu życia rodziny (0,29). Ogólna jakość modelu jest najniższa z trzech dotychczas zbudowanych (por. tab. 3). Tabela 3. Macierz błędnych klasyfikacji dla regresji logistycznej Regresja logistyczna procent poprawnych klasyfikacji 66,74%, iloraz szans = 3,77 Obserwowana UŻYWANY 199 (75,66%) 64 (24,34%) Obserwowana NOWY 89 (45,18%) 108 (54,82%) 5. Podejście dwufazowe CART-LOGIT Pierwszy etap analizy w podejściu dwufazowym polega na wykorzystaniu algorytmu CART do wstępnej eksploracji danych. Już w latach siedemdziesiątych ubiegłego stulecia pisano bowiem o drzewach klasyfikacyjnych jako narzędziach służących do przetrząsania danych. W etapie drugim użyto prostej regresji logistycznej, jednak do modelu włączono tylko te zmienne, które zostały uznane za potencjalnie wartościowe przez algorytm CART. Były to de facto zmienne znajdujące się wysoko w rankingu ważności predyktorów. Ostatecznie do modelu trafiły: faza 4 cyklu życia rodziny z jednostkowym ilorazem szans równym 1,90 oraz faza 5 z ilorazem równym 4,34. Jakość rozwiązania przedstawiono w tab. 4. Tabela 4. Macierz błędnych klasyfikacji dla modelu dwufazowego CART-LOGIT CART LOGIT procent poprawnych klasyfikacji 63,26%, iloraz szans = 2,81 Obserwowana UŻYWANY 215 (81,75%) 48 (18,25%) Obserwowana NOWY 121 (61,43%) 76 (38,57%) 3 W nawiasie za każdą zmienną objaśniająca podano jednostkowe ilorazy szans.
8 Modele hybrydowe cart-logit w analizie danych rynkowych Podejście dwufazowe RandomForests-LOGIT W drugim wariancie podejścia dwufazowego zamiast algorytmu CART użyto techniki RandomForests (w skrócie RF). Za takim rozwiązaniem przemawiają dwa argumenty. Po pierwsze, metoda RF jest oparta na występującym w algorytmie CART indeksie Giniego, a po drugie, jednym z wyników analizy RF jest ranking ważności predyktorów, który może być podstawą do dalszych rozważań nad strukturą danych. Jakość rozwiązania jest pod każdym względem najniższa spośród wszystkich opisanych dotychczas modeli (por. tab. 5). W modelu znalazły się trzy statystycznie istotne zmienne objaśniające: płeć kobieta (jedn. il.szans = 3,62), faza 1 cyklu życia rodziny (jedn. il.szans = 0,55) i faza 5 cyklu życia rodziny (jedn. il.szans = 3,95). Tabela 5. Macierz błędnych klasyfikacji dla modelu dwufazowego RF-LOGIT RF LOGIT procent poprawnych klasyfikacji 68,91%, iloraz szans = 4,66 Obserwowana UŻYWANY 206 (78,33%) 57 (21,67%) Obserwowana NOWY 86 (43,66%) 111 (56,34%) 7. Model hybrydowy CART-LOGIT (odmiana I) Tworzenie hybrydowych narzędzi analitycznych polega na łączeniu różnych technik analitycznych. W tym wypadku będą to, wywodzące się z data mining, drzewa klasyfikacyjne CART oraz regresja logistyczna. Modele logitowe są budowane w logit 1 logit 2 logit 3 logit 4 Rys. 2. Sposób budowania modelu hybrydowego CART-LOGIT (odmiana I) Źródło: opracowanie własne.
9 90 Mariusz Łapczyński podzbiorach całego zbioru obserwacji, jakie trafiły do poszczególnych liści drzewa. Liczba liści wyznacza zatem liczbę modeli logitowych, co z kolei wymusza budowę drzewa klasyfikacyjnego o względnie małej wielkości (por. rys. 2). Można tego dokonać albo poprzez ograniczenie a priori głębokości drzewa, ograniczenie wielkości drzewa, albo też ręczne przycięcie modelu. W niniejszym rozwiązaniu punktem wyjścia był model drzewa z dwoma liśćmi i płcią respondenta jako zmienną wykorzystaną na jedynym etapie podziału. Owa dychotomia determinowała dwukrotne wykorzystanie regresji logistycznej raz w grupie kobiet i drugi raz w grupie mężczyzn. Dwa modele to dwie macierze błędnych klasyfikacji (tab. 6 i 7) oraz dwa zestawy zmiennych objaśniających. W grupie kobiet były to: bezpieczeństwo samochodu (jedn. il.szans = 4,75) i funkcjonalność samochodu (jedn. il.szans = 0,26), natomiast w grupie mężczyzn: faza 1 cyklu życia rodziny (jedn. il.szans = 0,29) i faza 3 cyklu życia rodziny (jedn. il.szans = 0,36). Tabela 6. Macierz błędnych klasyfikacji dla modelu hybrydowego CART-LOGIT (odmiana I podzbiór: kobiety) CART-LOGIT 1 procent poprawnych klasyfikacji 72,03%, iloraz szans = 7,50 Obserwowana UŻYWANY 15 (34,88%) 28 (65,12%) Obserwowana NOWY 5 (6,67%) 70 (93,33%) Tabela 7. Macierz błędnych klasyfikacji dla modelu hybrydowego CART-LOGIT (odmiana I podzbiór: mężczyźni) CART-LOGIT 1 procent poprawnych klasyfikacji 65,20%, iloraz szans = 3,00 Obserwowana UŻYWANY 155 (70,45%) 65 (29,55%) Obserwowana NOWY 54 (44,26%) 68 (55,74%) 8. Model hybrydowy CART-LOGIT (odmiana II) Nieco inne podejście do stworzenia hybrydy CART-LOGIT polega na budowie modelu logitowego dla całego zbioru obserwacji z wykorzystaniem informacji o zawartości liści. W pierwszym kroku należy zatem zbudować model CART o niezbyt dużej głębokości. Następnie należy utworzyć zmienną kategorialną, gdzie każda z kategorii oznacza przynależność przypadku do liścia. Następnie zamienia się tę zmienną na zestaw zmiennych sztucznych (dummies) i dołącza do pozostałych zmiennych objaśniających w modelu logitowym. Zmienna ta reprezentuje regułę jeżeli, to i strukturę interakcji odkrytą przez CART (rys. 3).
10 Modele hybrydowe cart-logit w analizie danych rynkowych 91 kategoria 1 kategoria 2 kategoria 3 kategoria 4 nowa zmienna kategorialna do modelu LOGIT Rys. 3. Sposób budowania modelu hybrydowego CART-LOGIT (odmiana II) Źródło: opracowanie własne. Tabela 8. Macierz błędnych klasyfikacji dla modelu hybrydowego CART-LOGIT (odmiana II) CART-LOGIT 2 procent poprawnych klasyfikacji 69,35%, iloraz szans = 5,25 Obserwowana UŻYWANY 222 (84,41%) 41 (15,59%) Obserwowana NOWY 100 (50,77%) 97 (49,23%) Jakość rozwiązania hybrydowego przedstawiono w tab. 8. Zmienne objaśniające, które trafiły do ostatecznej postaci modelu, to: faza 4 cyklu życia rodziny (jedn. il.szans = 2,22), liść 1 (jedn. il.szans = 5,75), liść 2 (jedn. il.szans = 1,19) i liść 3 (jedn. il.szans = 1,22). Konieczne w tym miejscu jest wyjaśnienie, w jaki sposób interpretować liście drzewa: liść 1 to kobiety z każdej poza pierwszą fazy cyklu życia rodziny; liść 2 to kobiety z pierwszej fazy cyklu życia rodziny; liść 3 to mężczyźni z piątej fazy cyklu życia rodziny. 9. Model hybrydowy CART-LOGIT (odmiana III) Trzecie podejście w budowie modelu hybrydowego CART-LOGIT wykorzystuje charakterystyczne dla CART istnienie zmiennych zastępczych i zmiennych konkurencyjnych. Na każdym etapie podziału drzewa zestawiany jest ranking zmien-
11 92 Mariusz Łapczyński nych niezależnych, które zapewniają najlepszy podział danego węzła. Pozycja w tym rankingu zależy od trafności predykcji zmiennej zależnej w wydzielanych węzłach potomnych. Najlepszy z predyktorów wykorzystywany jest do budowy modelu, a pozostałe pełnią funkcję bądź to zmiennych konkurencyjnych, bądź zmiennych zastępczych (albo obie te funkcje jednocześnie). Kolejność w tych lokalnych rankingach zależy od wartości tzw. wskaźnika poprawy (improvement). Zmienna niezależna, dla której wartość ta jest najwyższa, zostaje uznana za najlepszy predyktor pierwotny, który dzieli dany węzeł. Kolejność pozostałych predyktorów jest determinowana posortowanymi malejąco wartościami wskaźnika poprawy. Różnica między zmiennymi konkurencyjnymi a zmiennymi zastępczymi sprowadza się do tego, że te pierwsze zapewniają zbliżoną redukcję heterogeniczności węzła, te drugie zaś, oprócz redukcji nieczystości węzła, naśladują najlepszy predyktor, rozdzielając konkretne przypadki ze zbioru obserwacji w sposób jak najbardziej zbliżony do podziału pierwotnego (case-by-case). Zmienna zastępcza to zazwyczaj predyktor, który w danym miejscu drzewa zajmuje drugą pozycję i jednocześnie dzieli dany węzeł w sposób zbliżony do tego, jaki daje zmienna niezależna z pierwszej pozycji. Wprowadzenie zmiennych zastępczych niesie ze sobą kilka korzyści, z których najbardziej tu przydatną jest lepsze zrozumienie badanego zjawiska. Badacz może się przyjrzeć dokładnie strukturze drzewa i sprawdzić, jakie inne zmienne mogłyby być potencjalnymi predyktorami na poszczególnych etapach podziału. Niektóre programy (np. STATISTICA Data Miner, CART wersja 6.0) pozwalają na ingerencję analityka w strukturę modelu. Możliwe jest usuwanie (dodawanie) dowolnych gałęzi i wprowadzanie własnych podziałów. drzewo ze zmiennymi konkurencyjnymi kategoria 1 kategoria 2 kategoria 3 kategoria 4 kategoria 1* kategoria 2* kategoria 3* kategoria 4* Rys. 4. Sposób budowania modelu hybrydowego CART-LOGIT (odmiana III) Źródło: opracowanie własne.
12 Modele hybrydowe cart-logit w analizie danych rynkowych 93 W trzeciej odmianie modeli hybrydowych wykorzystano taką właśnie zmodyfikowaną przez badacza postać drzewa klasyfikacyjnego CART (por. rys. 4). Zmienne objaśniające, które znalazły się w ostatecznym rozwiązaniu, to: faza 1 cyklu życia rodziny (jedn. il.szans = 0,27), faza 2 cyklu życia rodziny (jedn. il.szans = 0,32), faza 3 cyklu życia rodziny (jedn. il.szans = 0,40), liść 1* (jedn. il.szans = 3,75) i liść 3* (jedn. il.szans = 4,37). Przypadki, które znajdują się w liściu 1*, to osoby z piątej fazy cyklu życia rodziny, które nie przykładają wagi do wyglądu samochodu, zaś w liściu 3* znajdują się kobiety z każdej poza piątą fazy cyklu życia rodziny. Procent poprawnych klasyfikacji i iloraz szans zamieszczono w tab. 9. Tabela 9. Macierz błędnych klasyfikacji dla modelu hybrydowego CART-LOGIT (odmiana III) CART-LOGIT 3 procent poprawnych klasyfikacji 68,48%, iloraz szans = 4,62 Obserwowana UŻYWANY 215 (81,75%) 48 (18,25%) Obserwowana NOWY 97 (49,24%) 100 (50,76%) 10. Podsumowanie W poniższej tabeli (tab. 10) zamieszczono porównanie wszystkich modeli z uwzględnieniem pięciu kryteriów: odsetka poprawnych klasyfikacji dla całego modelu, odsetka poprawnych klasyfikacji klientów preferujących nowy samochód, odsetka poprawnych klasyfikacji klientów preferujących samochód używany, ilorazu szans oraz dla modeli logitowych współczynnika R 2 McFaddena. Tabela 10. Podsumowanie wyników dla ośmiu modeli predykcyjnych Model Procent poprawnych klasyfikacji Procent dla klasy NOWE Procent dla klasy UŻYWANE Iloraz szans R 2 McFaddena CART 70,43 46,70 88,21 6,55 XXX RandomForests 76,43 63,12 87,28 11,75 XXX LOGIT 66,74 54,82 75,66 3,77 0,113 CART LOGIT 63,26 38,57 81,75 2,81 0,045 RF LOGIT 68,91 56,34 78,33 4,66 0,098 CART-LOGIT 1 (kobiety) 72,03 93,33 34,88 7,50 0,082 CART-LOGIT 1 (mężczyźni) 65,20 55,74 70,45 3,00 0,052 CART-LOGIT 2 69,35 49,23 84,41 5,25 0,115 CART-LOGIT 3 68,48 50,76 81,75 4,62 0,127 Źródło: opracowanie własne.
13 94 Mariusz Łapczyński Najwyższą ogólną trafność predykcji zapewnił model RandomForests, pierwsza odmiana hybrydowego CART-LOGIT dla kobiet oraz klasyczny CART. Jeśli chodzi o trafność predykcji dla klasy samochód nowy, to najlepsze wyniki otrzymano z zastosowaniem: RandomForests, podejścia dwufazowego RF LOGIT oraz pierwszej odmiany modelu hybrydowego CART-LOGIT dla kobiet. W odniesieniu do odsetka poprawnych klasyfikacji respondentów preferujących samochód używany najlepszy rezultat dostarczyły dwa narzędzia data mining oraz druga odmiana modelu hybrydowego CART-LOGIT. Jeśli spojrzeć na iloraz szans, to najlepiej wypadły CART, RF i pierwsza odmiana hybrydowego CART-LOGIT dla kobiet, natomiast jeśli brać pod uwagę R 2 McFaddena, to najlepsze są trzecia i druga odmiana modelu hybrydowego oraz prosta regresja logistyczna. Wydaje się zatem, że nie ma tutaj narzędzia/podejścia, które byłoby zdecydowanie lepsze od pozostałych, co z kolei zdaje się potwierdzać opinię o konieczności budowy modeli predykcyjnych za pomocą wielu narzędzi analitycznych. Literatura Breiman L. i in., Classification and regression trees, Chapman and Hall, Breiman L., Cutler A., Random Forests, stat- ( ). Buntine W., Tree classification software, Technology 2002, Baltimore, December Chapman H.A., George E.I., McCulloch R.E., Bayesian CART model search, Journal of the American Statistical Association, September 1998, vol. 93, no. 443, s Crawford S.L., Extension to the CART algorithm, International Journal Man-Machine Studies 1989, vol. 31, s Gatnar E., Nieparametryczna metoda dyskryminacji i regresji, PWN, Warszawa Loh W-Y., Vanichsetakul N., Tree-structured classification via generalized discriminant analysis, Journal of the American Statistical Association, September 1988, vol. 83, no. 403, s Łapczyński M., Predykcja zjawisk rynkowych za pomocą narzędzia RandomForests, opracowanie cząstkowe w ramach badań statutowych pod kier. prof. dr. hab. Adama Sagana, Uniwersytet Ekonomiczny, Kraków Łapczyński M., Zmienne zastępcze i konkurencyjne w interpretacji drzew klasyfikacyjnych CART, Zeszyty Naukowe Uniwersytetu Ekonomicznego w Krakowie (w druku). Steinberg D., Cardell N.S., The hybrid CART-logit model in classification and data mining, ( ). Steinberg D., Colla P., CART. Interface and documentation, Salford Systems,
14 Modele hybrydowe cart-logit w analizie danych rynkowych 95 THE HYBRID CART-LOGIT MODELS IN ANALYSING MARKET DATA Summary The goal of this article is to compare classic approaches which are used in building predictive models with hybrid methods that combine CART algorithm with logistic regression. The predictive model concerning the stated preferences of consumers on the motor vehicles market was developed on the basis of data collected during the survey research conducted in The list of independent variables consisted of demographic variables, LOV scale and items from the scale known as benefit structure analysis. Classic data mining and statistical tools (CART, RandomForests and logistic regression) were compared with three types of hybrid models and 2 two-stage approaches. The performance of predictive models was measured with percent of properly classified cases, odds ratio and R 2 measure proposed by McFadden.
Zmienne zastępcze i konkurencyjne w interpretacji drzew klasyfikacyjnych CART
Zeszyty Naukowe nr 800 Uniwersytet Ekonomiczny w Krakowie 2009 Katedra Analizy Rynku i Badań Marketingowych Zmienne zastępcze i konkurencyjne w interpretacji drzew klasyfikacyjnych CART 1. Wprowadzenie
Projektowanie, ocena i wykorzystanie danych rynkowych
Nr 51 Projektowanie, ocena i wykorzystanie danych rynkowych Redaktor naukowy Józef Dziechciarz Spis treści Wstęp.............................................................. 7 Sylwester Białowąs, Kolejność
Projektowanie, ocena i wykorzystanie danych rynkowych
Nr 51 Projektowanie, ocena i wykorzystanie danych rynkowych Redaktor naukowy Józef Dziechciarz Spis treści Wstęp.............................................................. 7 Sylwester Białowąs, Kolejność
DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI
StatSoft Polska, tel. (1) 48400, (601) 414151, info@statsoft.pl, www.statsoft.pl DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI I LOJALNOŚCI KLIENTÓW Mariusz Łapczyński Akademia Ekonomiczna w Krakowie,
Projektowanie, ocena i wykorzystanie danych rynkowych
Nr 5 Projektowanie, ocena i wykorzystanie danych rynkowych Redaktor naukowy Józef Dziechciarz Spis treści Wstęp.............................................................. 7 Sylwester Białowąs, Kolejność
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Metoda Automatycznej Detekcji Interakcji CHAID
Metoda Automatycznej Detekcji Interakcji CHAID Metoda ta pozwala wybrać z konkretnego, dużego zbioru zmiennych te z nich, które najsilniej wpływają na wskazaną zmienną (objaśnianą) zmienne porządkowane
Szkolenie Analiza dyskryminacyjna
Szkolenie Analiza dyskryminacyjna program i cennik Łukasz Deryło Analizy statystyczne, szkolenia www.statystyka.c0.pl Szkolenie Analiza dyskryminacyjna Co to jest analiza dyskryminacyjna? Inną nazwą analizy
ANALIZA DANYCH ANKIETOWYCH PRZEGLĄD WYBRANYCH TECHNIK NA PRZYKŁADZIE RYNKU MOTORYZACYJNEGO. Poznanie odpowiedzi na pytania wstępna analiza przekrojowa
ANALIZA DANYCH ANKIETOWYCH PRZEGLĄD WYBRANYCH TECHNIK NA PRZYKŁADZIE RYNKU MOTORYZACYJNEGO Mariusz Łapczyński, Uniwersytet Ekonomiczny w Krakowie, Katedra Analizy Rynku i Badań Marketingowych Poznanie
Drzewa decyzyjne i lasy losowe
Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM
MODELE HYBRYDOWE C&RT-LOGIT W ANALIZIE MIGRACJI KLIENTÓW
Mariusz Łapczyński Uniwersytet Ekonomiczny w Krakowie MODELE HYBRYDOWE C&RT-LOGIT W ANALIZIE MIGRACJI KLIENTÓW Wprowadzenie 1 Celem artykułu jest zastosowanie modelu hybrydowego C&RT-logit w analizie migracji
Spis treści. Wstęp... 9
Spis treści Wstęp.............................................................. 9 Małgorzata Rószkiewicz, Wizualizacja danych nominalnych oraz różnego typu danych porządkowych w procedurze skalowania optymalnego...
SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
PodejÊcie regresyjne w budowie drzew klasyfikacyjnych CART
Zeszyty Naukowe nr 680 Akademii Ekonomicznej w Krakowie 2005 Mariusz apczyƒski Katedra Analizy Rynku i Badaƒ Marketingowych PodejÊcie regresyjne w budowie drzew klasyfikacyjnych CART 1. Wprowadzenie Drzewa
ANALIZA CZYNNIKÓW ROKOWNICZYCH I METOD LECZENIA U CHORYCH NA ZIARNICĘ ZŁOŚLIWĄ
ANALIZA CZYNNIKÓW ROKOWNICZYCH I METOD LECZENIA U CHORYCH NA ZIARNICĘ ZŁOŚLIWĄ prof. dr hab. Andrzej Sokołowski, dr Adam Sagan Jednym z ważniejszych obszarów zastosowań programu STATISTICA w badaniach
Metody klasyfikacji danych - część 1 p.1/24
Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania
Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis
Komitet Redakcyjny Andrzej Matysiak (przewodniczący), Tadeusz Borys, Andrzej Gospodarowicz, Jan Lichtarski, Adam Nowicki, Walenty Ostasiewicz, Zdzisław Pisz, Teresa Znamierowska Recenzenci Stefan Mynarski,
Badania eksperymentalne
Badania eksperymentalne Analiza CONJOINT mgr Agnieszka Zięba Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa Najpopularniejsze sposoby oceny wyników eksperymentu w schematach
Projektowanie, ocena i wykorzystanie danych rynkowych
Nr 51 Projektowanie, ocena i wykorzystanie danych rynkowych Redaktor naukowy Józef Dziechciarz Spis treści Wstęp.............................................................. 7 Sylwester Białowąs, Kolejność
strona 1 / 12 Autor: Walesiak Marek Publikacje:
Autor: Walesiak Marek Publikacje: 1. Autorzy rozdziału: Borys Tadeusz; Strahl Danuta; Walesiak Marek Tytuł rozdziału: Wkład ośrodka wrocławskiego w rozwój teorii i zastosowań metod taksonomicznych, s.
WYKAZ PUBLIKACJI I. Artykuły Ia. Opublikowane przed obroną doktorską
Dr Marcin Pełka Uniwersytet Ekonomiczny we Wrocławiu Wydział Ekonomii, Zarządzania i Turystyki Katedra Ekonometrii i Informatyki WYKAZ PUBLIKACJI I. Artykuły Ia. Opublikowane przed obroną doktorską 1.
ALGORYTMY SZTUCZNEJ INTELIGENCJI
ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.
WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno
WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:
ANALIZA PORÓWNAWCZA JAKOŚCI MODELI PROGNOZOWANIA KONDYCJI EKONOMICZNO- FINANSOWEJ PRZEDSIĘBIORSTW WOJ. LUBELSKIEGO I PODKARPACKIEGO
115 ANALIZA PORÓWNAWCZA JAKOŚCI MODELI PROGNOZOWANIA KONDYCJI EKONOMICZNO- FINANSOWEJ PRZEDSIĘBIORSTW WOJ. LUBELSKIEGO I PODKARPACKIEGO Zbigniew Omiotek Wyższa Szkoła Zarządzania i Administracji w Zamościu
ANALIZA ZDOLNOŚCI PROCESU O ZALEŻNYCH CHARAKTERYSTYKACH
Małgorzata Szerszunowicz Uniwersytet Ekonomiczny w Katowicach ANALIZA ZDOLNOŚCI PROCESU O ZALEŻNYCH CHARAKTERYSTYKACH Wprowadzenie Statystyczna kontrola jakości ma na celu doskonalenie procesu produkcyjnego
Statystyka i Analiza Danych
Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania wybranych technik regresyjnych do modelowania współzależności zjawisk Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki
Regresja logistyczna (LOGISTIC)
Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące
Projektowanie, ocena i wykorzystanie danych rynkowych
Nr 51 Projektowanie, ocena i wykorzystanie danych rynkowych Redaktor naukowy Józef Dziechciarz Spis treści Wstęp.............................................................. 7 Sylwester Białowąs, Kolejność
1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
Statystyka I. Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy)
Statystyka I Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy) 1 Zmienne jakościowe qzmienne jakościowe niemierzalne kategorie: np. pracujący / bezrobotny qzmienna binarna Y=0,1 qczasami
Próba wykorzystania podejścia wielomodelowego w klasyfikacji jednostek samorządowych
Jacek Batóg Uniwersytet Szczeciński Próba wykorzystania podejścia wielomodelowego w klasyfikacji jednostek samorządowych Agregacja wyników uzyskiwanych w odrębnych badaniach, często również przy pomocy
Ekonometria. Zastosowania Metod Ilościowych 30/2011
Wroclaw Univesity of Economics From the SelectedWorks of Józef Z. Dziechciarz 2011 Ekonometria. Zastosowania Metod Ilościowych 30/2011 Jozef Z. Dziechciarz, Wroclaw Univesity of Economics Available at:
strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:
Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje: 1. Autorzy rozdziału: Borys Tadeusz; Strahl Danuta; Walesiak Marek Tytuł rozdziału: Wkład ośrodka wrocławskiego w rozwój teorii
Projektowanie, ocena i wykorzystanie danych rynkowych
Nr 51 Projektowanie, ocena i wykorzystanie danych rynkowych Redaktor naukowy Józef Dziechciarz Spis treści Wstęp.............................................................. 7 Sylwester Białowąs, Kolejność
RAPORT Z BADANIA SATYSFAKCJI KLIENTÓW KORZYSTAJĄCYCH Z USŁUG ŚWIADCZONYCH PRZEZ URZĄD MIASTA RZESZOWA
RAPORT Z BADANIA SATYSFAKCJI KLIENTÓW KORZYSTAJĄCYCH Z USŁUG ŚWIADCZONYCH PRZEZ URZĄD MIASTA RZESZOWA Rzeszów, sierpień 2016 r. Spis treści 1 PRZEDMIOT ZAMÓWIENIA ORAZ CEL BADAŃ... 3 2 METODOLOGIA... 5
MODEL STRUKTURALNY RELACJI MIĘDZY SATYSFAKCJĄ
MODEL STRUKTURALNY RELACJI MIĘDZY SATYSFAKCJĄ I LOJALNOŚCIĄ WOBEC MARKI Adam Sagan Akademia Ekonomiczna w Krakowie, Katedra Analizy Rynku i Badań Marketingowych Wstęp Modelowanie strukturalne ma wielorakie
SUBIEKTYWNEJ JAKOŚCI ŻYCIA TOM II SZCZEGÓŁOWE WYNIKI BADAŃ WEDŁUG DZIEDZIN
RAPORT Z BADAŃ SUBIEKTYWNEJ JAKOŚCI ŻYCIA TOM II SZCZEGÓŁOWE WYNIKI BADAŃ WEDŁUG DZIEDZIN Lider projektu: Uniwersytet Ekonomiczny we Wrocławiu Partner projektu: Uniwersytet Techniczny w Dreźnie Projekt:
Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie
Wprowadzenie Konstrukcja binarnych drzew klasyfikacyjnych polega na sekwencyjnym dzieleniu podzbiorów przestrzeni próby X na dwa rozłączne i dopełniające się podzbiory, rozpoczynając od całego zbioru X.
8. Drzewa decyzyjne, bagging, boosting i lasy losowe
Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
SEGMENTACJA RYNKU A TYPY MARKETINGU
SEGMENTACJA SEGMENTACJA...... to proces podziału rynku na podstawie określonych kryteriów na względnie homogeniczne rynki cząstkowe (względnie jednorodne grupy konsumentów) nazywane SEGMENTAMI, które wyznaczają
Algorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Projektowanie, ocena i wykorzystanie danych rynkowych
Nr 51 Projektowanie, ocena i wykorzystanie danych rynkowych Redaktor naukowy Józef Dziechciarz Spis treści Wstęp.............................................................. 7 Sylwester Białowąs, Kolejność
Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.
Wprowadzenie do programu RapidMiner Studio 7.6, część 7 Podstawy metod wyboru atrybutów w problemach klasyfikacyjnych, c.d. Michał Bereta www.michalbereta.pl Wybór / ocena atrybutów na podstawie oceny
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
ZASTOSOWANIE REGRESJI LOGISTYCZNEJ DO WYZNACZENIA CECH O NAJWIĘKSZEJ SILE DYSKRYMINACJI WIELKOŚCI WSKAŹNIKÓW POSTĘPU NAUKOWO-TECHNICZNEGO
Inżynieria Rolnicza 8(96)/2007 ZASTOSOWANIE REGRESJI LOGISTYCZNEJ DO WYZNACZENIA CECH O NAJWIĘKSZEJ SILE DYSKRYMINACJI WIELKOŚCI WSKAŹNIKÓW POSTĘPU NAUKOWO-TECHNICZNEGO Agnieszka Prusak, Stanisława Roczkowska-Chmaj
Klastry a międzynarodowa konkurencyjność i internacjonalizacja przedsiębiorstwa
Klastry a międzynarodowa konkurencyjność i internacjonalizacja przedsiębiorstwa B 361445 Wprowadzenie 9 Rozdział 1 Koncepcja klastrów a teoria regulacji systemów gospodarczych 16 1.1. Regulacja gospodarki
Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Modelowanie zmiennej jakościowej Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Ćwiczenia 8 Zmienna jakościowa 1 / 25 Zmienna jakościowa Zmienna ilościowa może zostać zmierzona
SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego
Jak przekształcać zmienne jakościowe?
Data Preparation Jak przekształcać zmienne jakościowe? Marta Płonka Predictive Solutions W ostatnim artykule zobaczyliśmy, jak sprawdzić, czy między wybranymi przez nas predyktorami a zmienną przewidywaną
Testowanie modeli predykcyjnych
Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności
Rozmyte drzewa decyzyjne. Łukasz Ryniewicz Metody inteligencji obliczeniowej
µ(x) x µ(x) µ(x) x x µ(x) µ(x) x x µ(x) x µ(x) x Rozmyte drzewa decyzyjne Łukasz Ryniewicz Metody inteligencji obliczeniowej 21.05.2007 AGENDA 1 Drzewa decyzyjne kontra rozmyte drzewa decyzyjne, problemy
Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.
ANALIZA SKUPIEŃ Metoda k-means I. Cel zadania Zadaniem jest analiza zbioru danych, gdzie zmiennymi są poziomy ekspresji genów. Podczas badań pobrano próbki DNA od 36 różnych pacjentów z chorobą nowotworową.
Wskaźnik kondycji finansowej kredytobiorcy. Aspekty metodologiczne.
Wskaźnik kondycji finansowej kredytobiorcy. Aspekty metodologiczne. dr Anna Nowak-Czarnocka Zastosowania statystyki i data mining w badaniach naukowych Warszawa, 12 października 2016 Pole badawcze Ryzyko
Metody scoringowe w regresji logistycznej
Metody scoringowe w regresji logistycznej Andrzej Surma Wydział Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego 19 listopada 2009 AS (MIMUW) Metody scoringowe w regresji logistycznej 19
Wprowadzenie do analizy dyskryminacyjnej
Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela
Scoring kredytowy w pigułce
Analiza danych Data mining Sterowanie jakością Analityka przez Internet Scoring kredytowy w pigułce Mariola Kapla Biuro Informacji Kredytowej S.A. StatSoft Polska Sp. z o.o. ul. Kraszewskiego 36 30-110
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Klasyfikacja LDA + walidacja
Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja
Badania marketingowe. Omówione zagadnienia
Społeczna Wyższa Szkoła Przedsiębiorczości i Zarządzania kierunek: Zarządzanie Badania marketingowe Wykład 6 Opracowanie: dr Joanna Krygier 1 Omówione zagadnienia Rodzaje badań bezpośrednich Porównanie
SLAJDY WYBRANE I ZMODYFIKOWANE POD KĄTEM PREZENTACJI W INTERNECIE
SUM - WLK 2011 WYKŁAD PIĄTY: BIOSTATYSTYKA C.D. Prof. dr hab. med. Jan E. Zejda! UWAGA! SLAJDY WYBRANE I ZMODYFIKOWANE POD KĄTEM PREZENTACJI W INTERNECIE TREŚĆ WYKŁADU Dokumentowanie efektu (analiza danych
Stanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka 1 1. Binarne zmienne zależne 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników 3. Probit a) Interpretacja współczynników b) Miary dopasowania 4.
Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17
Stanisław Cichocki Natalia Neherebecka Zajęcia 15-17 1 1. Binarne zmienne zależne 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników 3. Probit a) Interpretacja współczynników b) Miary
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
5. Wprowadzenie do prawdopodobieństwa Wprowadzenie Wyniki i zdarzenia Różne podejścia do prawdopodobieństwa Zdarzenia wzajemnie wykluczające się i
Spis treści Przedmowa do wydania polskiego - Tadeusz Tyszka Słowo wstępne - Lawrence D. Phillips Przedmowa 1. : rola i zastosowanie analizy decyzyjnej Decyzje złożone Rola analizy decyzyjnej Zastosowanie
PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH
Wykład 3 Liniowe metody klasyfikacji. Wprowadzenie do klasyfikacji pod nadzorem. Fisherowska dyskryminacja liniowa. Wprowadzenie do klasyfikacji pod nadzorem. Klasyfikacja pod nadzorem Klasyfikacja jest
Szkolenia SAS Cennik i kalendarz 2017
Szkolenia SAS Spis treści NARZĘDZIA SAS FOUNDATION 2 ZAAWANSOWANA ANALITYKA 2 PROGNOZOWANIE I EKONOMETRIA 3 ANALIZA TREŚCI 3 OPTYMALIZACJA I SYMULACJA 3 3 ROZWIĄZANIA DLA HADOOP 3 HIGH-PERFORMANCE ANALYTICS
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja
WYKORZYSTANIE DRZEW KLASYFIKACYJNYCH DO WSPOMAGANIA
WYKORZYSTANIE DRZEW KLASYFIKACYJNYCH DO WSPOMAGANIA PROCESÓW PODEJMOWANIA DECYZJI mgr Małgorzata Misztal 6 Uwagi wstępne Działalność człowieka to nieustanny proces podejmowania decyzji. Z każdą decyzją
Metody statystyczne w segmentacji rynku The statistical methods used in market segmentation
The statistical methods used in market segmentation Katarzyna Dębkowska Politechnika Białostocka, Wydział Zarządzania, Katedra Informatyki Gospodarczej i Logistyki Abstract This article aims to present
SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.
SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:
Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład
Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT
P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?
2 Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia czy pomiędzy zmiennymi istnieje związek/zależność. Stosujemy go w sytuacji, kiedy zmienna zależna mierzona jest na skali
Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość
Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego
WYZNACZANIE WARTOŚCI PODSTAWOWYCH PARAMETRÓW TECHNICZNYCH NOWOCZESNYCH KOMBAJNÓW ZBOŻOWYCH PRZY UŻYCIU SSN
Inżynieria Rolnicza 2(9)/7 WYZNACZANIE WARTOŚCI PODSTAWOWYCH PARAMETRÓW TECHNICZNYCH NOWOCZESNYCH KOMBAJNÓW ZBOŻOWYCH PRZY UŻYCIU SSN Sławomir Francik Katedra Inżynierii Mechanicznej i Agrofizyki, Akademia
1 Analizy zmiennych jakościowych
1 Analizy zmiennych jakościowych Przedmiotem analizy są zmienne jakościowe. Dokładniej wyniki pomiarów jakościowych. Pomiary tego typu spotykamy w praktyce badawczej znacznie częściej niż pomiary typu
Ćwiczenie 12. Metody eksploracji danych
Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych
Część 2. Teoretyczne i praktyczne aspekty wybranych metod analiz ilościowych w ekonomii i zarządzaniu
Spis treści Część 1 Analiza procedur wyznaczania i wykorzystania rozwiązań uogólnionych wybranej klasy nieliniowych modeli optymalizacyjnych we wspomaganiu procesów decyzyjnych (Jerzy Mika) Wprowadzenie.
Stanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka 1 1. Wstęp a) Binarne zmienne zależne b) Interpretacja ekonomiczna c) Interpretacja współczynników 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników
Mariusz Łapczyński, Uniwersytet Ekonomiczny w Krakowie
ANALIZA MIGRACJI KLIENTÓW (CHURN ANALYSIS) Mariusz Łapczyński, Uniwersytet Ekonomiczny w Krakowie Wprowadzenie do analizy migracji klientów (churn analysis) Termin churn jest stosowany w branży telekomunikacyjnej
Widzenie komputerowe (computer vision)
Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja
Imię/Imiona Nazwisko/a afiliacja Tytuł referatu Publikacja Temat sesji Numer sesji
Imię/Imiona Nazwisko/a afiliacja Tytuł referatu Publikacja Temat sesji Numer sesji czas Krzysztof Jajuga e Krystyna Magdalena Mazurek- Łopacińska Sobocińska e Stanisław Kaczmarczyk Mikołaja Kopernika Big
Projektowanie, ocena i wykorzystanie danych rynkowych
Nr 51 Projektowanie, ocena i wykorzystanie danych rynkowych Redaktor naukowy Józef Dziechciarz Spis treści Wstęp.............................................................. 7 Sylwester Białowąs, Kolejność
Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji
Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT Część I: analiza regresji Krok 1. Pod adresem http://zsi.tech.us.edu.pl/~nowak/adb/eksport.txt znajdziesz zbiór danych do analizy. Zapisz plik na dysku w dowolnej
Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska
Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera
ANALIZA WIELOPOZIOMOWA JAKO NARZĘDZIE WSPARCIA POLITYK PUBLICZNYCH
ANALIZA WIELOPOZIOMOWA JAKO NARZĘDZIE WSPARCIA POLITYK PUBLICZNYCH - Adrian Gorgosz - Paulina Tupalska ANALIZA WIELOPOZIOMOWA (AW) Multilevel Analysis Obecna od lat 80. Popularna i coraz częściej stosowana
Sterowanie wielkością zamówienia w Excelu - cz. 3
Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji
WYKORZYSTANIE DRZEW KLASYFIKACYJNYCH I REGRESYJNYCH DO ANALIZY WYJAZDÓW TURYSTYCZNYCH GOSPODARSTW DOMOWYCH SENIORÓW W POLSCE
METODY ILOŚCIOWE W BADANIACH EKONOMICZNYCH Tom XIII/3, 2012, str. 7 17 WYKORZYSTANIE DRZEW KLASYFIKACYJNYCH I REGRESYJNYCH DO ANALIZY WYJAZDÓW TURYSTYCZNYCH GOSPODARSTW DOMOWYCH SENIORÓW W POLSCE Iwona
METODY STATYSTYCZNE STOSOWANE DO ANALIZY
METODY STATYSTYCZNE STOSOWANE DO ANALIZY ZADOWOLENIA I LOJALNOŚCI KLIENTÓW Janusz Wątroba StatSoft Polska Sp. z o.o. Wprowadzenie Opracowanie zostało poświęcone ogólnej charakterystyce kolejnego etapu
Wykład z Technologii Informacyjnych. Piotr Mika
Wykład z Technologii Informacyjnych Piotr Mika Uniwersalna forma graficznego zapisu algorytmów Schemat blokowy zbiór bloków, powiązanych ze sobą liniami zorientowanymi. Jest to rodzaj grafu, którego węzły
Projekt zarządzania jakością wykorzystujący STATISTICA Data Miner przynosi w voestalpine roczne oszczędności w wysokości 800 000 EUR
Projekt zarządzania jakością wykorzystujący STATISTICA Data Miner przynosi w voestalpine roczne oszczędności w wysokości 800 000 EUR Przemysł samochodowy stawia najwyższe wymagania jakościowe w stosunku
Prof. zw. dr hab. inż. dr h.c. Stanisław Urban Uniwersytet Ekonomiczny we Wrocławiu
Prof. zw. dr hab. inż. dr h.c. Stanisław Urban Uniwersytet Ekonomiczny we Wrocławiu Analiza rynku. Badania produktów By decyzje podejmowane na różnych etapach zarządzania produktem były trafne, trzeba
MODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
Process Analytical Technology (PAT),
Analiza danych Data mining Sterowanie jakością Analityka przez Internet Process Analytical Technology (PAT), nowoczesne podejście do zapewniania jakości wg. FDA Michał Iwaniec StatSoft Polska StatSoft
Laboratorium 11. Regresja SVM.
Laboratorium 11 Regresja SVM. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>. 3. Z
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Metodologia badań psychologicznych
Metodologia badań psychologicznych Lucyna Golińska SPOŁECZNA AKADEMIA NAUK Psychologia jako nauka empiryczna Wprowadzenie pojęć Wykład 5 Cele badań naukowych 1. Opis- (funkcja deskryptywna) procedura definiowania