NOWE MOŻLIWOŚCI ANALIZY DANYCH STATISTICA ZESTAW PLUS
|
|
- Ksawery Pawlik
- 9 lat temu
- Przeglądów:
Transkrypt
1 NOWE MOŻLIWOŚCI ANALIZY DANYCH STATISTICA ZESTAW PLUS Grzegorz Migut, StatSoft Polska Sp. z o.o. STATISTICA Zestaw Plus jest specjalistycznym pakietem analitycznym, który stanowi uzupełnienie funkcjonalności programów z rodziny STATISTICA. Przeznaczony jest zarówno dla osób pragnących wykonywać pogłębioną analizę danych w różnych obszarach biznesu, jak również naukowców chcących opracować wyniki swoich badań. W skład pakietu STATISTICA Zestaw Plus wchodzi bogaty zestaw narzędzi do czyszczenia i przygotowania danych obejmujący między innymi narzędzia do analizy brakujących danych, kreator reguł poprawności danych czy też moduł umożliwiający ważenie wieńcowe przypadków. Zestaw zawiera także szereg modułów analitycznych umożliwiających wykonanie analiz za pomocą krzywych ROC oraz wykonanie meataanalizy oraz metaregresji. Zestaw zawiera także kreator regresji logistycznej, analizę conjoint, PROFIT oraz szereg innych narzędzi przydatnych w codziennej pracy analityka. W skład Zestawu wchodzi także szereg narzędzi umożliwiających podsumowanie skal wykorzystywanych podczas badań ankietowych, obliczanie szeregu wskaźników przydatnych w badaniach naukowych oraz wielu branżach biznesu. Dodatkowo użytkownicy Zestawu mają możliwość przygotowania szeregu wykresów (między innymi radarowego oraz Blanda-Altmana) oraz skorzystania z narzędzi formatujących wyniki wykonanych analiz. W pierwszej części artykułu dokonamy przeglądu najważniejszych możliwości pakietu, w drugiej części zaprezentowane zostaną przykłady analiz za pomocą wybranych modułów zestawu. Przygotowanie danych przegląd modułów Pierwsza grupa modułów uzupełnia bogaty wybór narzędzi do czyszczenia danych zawarty w STATISTICA o moduły wymienione ponizej. Copyright StatSoft Polska
2 Reguły poprawności danych Dzięki tej opcji użytkownik ma możliwość łatwiejszego zdefiniowania reguł poprawności danych. W oknie definiowania reguł można wybrać nazwę zmiennej, wskazać żądane wartości lub odpowiadające im etykiety i połączyć je z odpowiednim operatorem. Oprócz prostych reguł logicznych użytkownik ma możliwość wykorzystania zaawansowanej biblioteki funkcji zawartej w STATISTICA. Generowanie reguł ułatwia specjalnie przygotowany kreator. W arkuszu utworzone zostają zmienne wskazujące przypadki poprawne z punktu widzenia określonej reguły. Dodatkowo można utworzyć zmienną sprawdzającą poprawność względem wszystkich podanych reguł. Przygotowane reguły możemy zapisać do pliku konfiguracyjnego i wykorzystywać w innych modułach programu. Analiza brakujących danych Moduł umożliwia przekodowanie braków danych według wskazanego schematu. Bogaty zestaw sposobów imputacji braków danych: średnią, medianą, modalną, średnią bądź medianą w grupach, najbliższymi sąsiadami, podaną wartością. Łatwe określanie tej samej akcji dla wielu zmiennych. Testowanie losowości braków danych. Zapis określonych schematów kodowania do pliku konfiguracji Copyright StatSoft Polska 2012
3 Ważenie wieńcowe Moduł realizuje ważenie wieńcowe przypadków (RIM weighting). Moduł obsługuje ważenie względem maksymalnie sześciu wymiarów. Aby wygenerować zestaw wag dla przypadków, wystarczy podanie rozkładów brzegowych dla poszczególnych wymiarów. Copyright StatSoft Polska
4 Zmienne sztuczne Moduł umożliwia zamianę cech jakościowych na odpowiadające im zmienne sztuczne. W programie zaimplementowano cztery schematy kodowania: kodowanie zero-jedynkowe na n zmiennych (n to liczba poziomów kodowanej cechy), kodowanie zero-jedynkowe na n-1 zmiennych, kodowanie z sigma ograniczeniami (quasi-eksperymentalne), kodowanie ortogonalne. W przypadku wyboru trzech ostatnich schematów mamy możliwość ręcznego wyboru poziomu odniesienia. Szybkie rekodowanie Moduł umożliwia przekodowanie wybranych wartości (dowolna wartość, braki danych, pełne dane, wartość z podanego zakresu) zmiennych do wskazanych nowych wartości. Użytkownik może przekodować jednocześnie wiele zmiennych, a nowe kody mogą zostać wprowadzone do tych samych lub nowych zmiennych Copyright StatSoft Polska 2012
5 Przekształcenia zmiennych Moduł umożliwia normalizację zmiennych zgodnie z jednym z pięciu typów przekształcenia: skala stenowa, skala tenowa, skala staninowa, normalizacja, przekształcenie Soft-max. Moduł umożliwia zapisanie przekształcanych zmiennych w nowym lub bieżącym arkuszu danych. Copyright StatSoft Polska
6 Zliczanie wartości Moduł umożliwia utworzenie dodatkowej zmiennej zawierającej informację, ile razy w danym przypadku w określonej liście zmiennych wystąpiła wskazana przez użytkownika wartość. Oprócz pojedynczej wartości użytkownik może zliczyć wystąpienie wartości z dowolnego zakresu, a także braki danych oraz wartości niebędące brakami danych. Porządkuj zmienne wielokrotnych odpowiedzi Moduł umożliwia uporządkowanie wartości w zmiennych wielokrotnych odpowiedzi. Odpowiedzi dla danego przypadku zostaną posortowane zgodnie z kolejnością podaną przez użytkownika. Podsumowanie skal przegląd modułów Kolejna grupa modułów Podsumowanie skal umożliwia szybkie wygenerowanie raportu dla danych będących wynikiem pomiaru na skalach złożonych Copyright StatSoft Polska 2012
7 Podsumowanie skali pozycyjnej Umożliwia utworzenie zestawienia rozkładów procentowych wartości wybranych zmiennych przedstawionych na skali pozycyjnej. W arkuszu wynikowym dodatkowo mogą zostać zaznaczone kolorami wartości najczęściej i najrzadziej występujące w każdej ze zmiennych wchodzących w skład skali pozycyjnej lub występujące częściej bądź rzadziej od podanych wartości granicznych. Cecha A Cecha B Cecha C Cecha D Podsumowanie skali pozycyjnej Stale Bardzo często Często Czasami Nigdy Liczba odpowiedzi 25,0% 20,0% 20,0% 20,0% 15,0% 20 25,0% 30,0% 20,0% 10,0% 15,0% 20 30,0% 15,0% 35,0% 10,0% 10,0% 20 50,0% 5,0% 15,0% 15,0% 15,0% 20 Podsumowanie skali rangowej Umożliwia użytkownikowi wykonanie rankingu wartości wchodzących w skład skali rangowej oraz liczby wskazań danego obiektu na każdej pozycji. Analiza obsługuje dwa sposoby kodowania (zmienne oznaczają oceniane cechy, a wartości przypisane rangi lub zmienne reprezentują kolejne rangi, a wartości oznaczają oceniane cechy). Napoje gazowane Typu Cola Kompot Woda Soki Kefir Herbata mrozona Podsumowanie skali rangowej Miejsce 1 Miejsce 2 Miejsce 3 Miejsce 4 Miejsce 5 Miejsce 6 Miejsce 7 Ranking Wykres dla skali Stapela Umożliwia utworzenie wykresu podsumowującego średnie lub mediany wartości wskazanych zmiennych wyrażonych za pomocą skali Stapela. Dodatkowo istnieje możliwość wskazania zmiennej grupującej. Copyright StatSoft Polska
8 Wykres dyferencjału semantycznego Skala dyferencjału semantycznego jest najczęściej zestawem szeregu prostych skal dwubiegunowycfh. W praktyce badań technika ta stanowi zestaw skal szacunkowych do badań emocjonalnie nacechowanych ocen różnych obiektów (marek produktów, sloganów reklamowych, nazw firm). Przygotowanie skali wymaga opracowania par opozycyjnych terminów opisujących badane zjawisko, np. dobry-zły, szybki-wolny, silny-słaby. Następnie nasilenie każdej cechy jest oceniane na przykład od 1 do 7, gdzie 1 oznacza maksymalne nasilenie cechy pierwszej (np. negatywnej), 7 cechy przeciwnej (np. pozytywnej), a 4 stanowi punkt neutralny. Oceny respondentów są następnie uśredniane, bądź wyliczana jest mediana ocen, a wyniki nanoszone są na wykres dyferencjału semantycznego, zwany także profilem polaryzacji. Dyferencjał semantyczny Wątpliwy Rozmyty Mężczyzna Kobieta wartość neutralna Pewny Ostry Tymczasowy Trwały Niespójny Spójny Zawiły Prosty 34 Copyright StatSoft Polska 2012
9 Analizy przegląd modułów Grupa Analizy zawiera szereg narzędzi przydatnych w pracy analityka chcącego dogłębnie zrozumieć i opisać swoje dane oraz wyciągnąć na ich podstawie interesujące wnioski. Krzywe ROC Krzywe ROC (Receiver Operating Characteristic) są narzędziem służącym do oceny poprawności klasyfikatora (pojedynczej zmiennej lub całego modelu), zapewniają one łączny opis jego czułości i specyficzności. Ten sposób wspomagania systemu decyzyjnego jest szeroko stosowany w różnych obszarach analizy danych, m.in. w diagnostyce medycznej. Moduł Krzywe ROC umożliwia: kreślenie krzywych ROC dla prób zależnych i niezależnych, obliczanie pola powierzchni pod krzywą, porównywanie istotności różnicy pól pomiędzy dwiema krzywymi, ustalanie optymalnego punktu odcięcia dla podanych kosztów błędnej klasyfikacji i prawdopodobieństw a priori występowania badanego zjawiska, obliczanie miar FP, TP, FN, FP, Sensitivity, Specificity, ACC, PPV, NPV, False positive ratio, False negative ratio, LR dla wszystkich możliwych punktów odcięcia, wykresy czułości i specyficzności. Copyright StatSoft Polska
10 Metaanaliza i metaregresja Metaanaliza umożliwia syntezę wyników wielu niezależnych badań, szczególnie w sytuacji, gdy nie mamy dostępu do danych surowych, a dysponujemy jedynie zbiorczymi wynikami tych badań. Podejście takie pozwala rozszerzyć wnioski z pojedynczych badań na szerszą populację oraz zwiększyć wiarygodność otrzymanych wyników. Za pomocą dodatkowych narzędzi takich jak analiza niejednorodności, analiza w grupach czy metaregresja badacz może również ocenić zmienność uzyskanych wyników i wskazać jej źródła. Moduł Metaanaliza i metaregresja umożliwia m.in. obliczanie szeregu miar efektu, przedstawienie wyników metaanalizy w postaci wykresu leśnego (forest plot), analizę w grupach, analizę wrażliwości i przeprowadzenie metaregresji: 36 Copyright StatSoft Polska 2012
11 wprowadzanie wyników badań: wprowadzanie wyników badań pierwotnych (pojedynczo i przez plik), wprowadzanie gotowych (już wyliczonych) miar efektu, wprowadzanie wyników przedstawionych w różnych formatach (np. średnie, tabele 2x2, korelacje, efekt i p, efekt i przedział ufności), wprowadzanie dodatkowych informacji o badaniach, zapis wprowadzonych informacji do bazy danych, obliczanie miar efektu: uwzględnienie w analizie badań z wynikami przedstawionymi w postaci różnych miar efektu, możliwość automatycznego wyliczania brakujących charakterystyk na podstawie wprowadzonych danych (np. przedziału ufności na podstawie efektu i błędu std.), metaanaliza: obliczanie łącznych miar efektu dla modelu z efektem stałym i zmiennym (fixed effect model, random effects model), analiza skumulowana: przedstawienie stopniowych zmian efektu po dołączaniu do analizy kolejnych badań, analiza niejednorodności, analiza w grupach, metaregresja: analiza zależności między miarą efektu a zmiennymi ilościowymi i jakościowymi opisującymi badania, dla modelu z efektem stałym oraz zmiennym, analiza wrażliwości. Kreator Regresji Logistycznej Moduł umożliwia zbudowanie i ocenę modelu regresji logistycznej. Korzystając z Kreatora, badacz krok po kroku wykonuje kolejne etapy związane z budową modelu regresji, poczynając od sposobu kodowania zmiennych oraz wyboru istotnych cech do analizy, poprzez sprawdzanie założeń i identyfikację interakcji, aż po ocenę dobroci dopasowania modelu, analizę reszt czy zbadanie jego zdolności predykcyjnych. Funkcjonalność Kreatora obejmuje między innymi: wygodne określenie modelowanej klasy zmiennej zależnej oraz poziomów odniesienia predyktorów jakościowych, wykonanie jednoczynnikowej analizy dla wszystkich wybranych predyktorów: oceny parametrów regresji, obliczanie ilorazów szans wraz z przedziałami ufności, Copyright StatSoft Polska
12 wykres leśny(forest plot) dla zmiennych jakościowych, ranking istotności predyktorów na podstawie testu LR, badanie linowości wpływu predyktorów ilościowych na logarytm szansy modelowanego zjawiska, analiza współliniowości predyktorów: analiza korelacji, wyznaczanie skupisk skorelowanych zmiennych, automatyczne wyznaczanie reprezentantów zidentyfikowanych skupisk zmiennych, analiza interakcji: automatyczna identyfikacja istotnych interakcji, tworzenie rankingu interakcji, wygodny wybór interesujących interakcji, krokowe metody doboru zmiennych do modelu, zaawansowane schematy walidacji modelu: próba ucząca i testowa, wielokrotna ocena krzyżowa, 38 Copyright StatSoft Polska 2012
13 metoda LOO (Leave One Out), bogaty zestaw miar jakości modelu: analiza reszt oraz wartości wpływowych, analiza krzywych ROC, wykresy przyrostu i zysku. Analiza conjoint Moduł pozwala na wykonanie analizy dla zmiennych zależnych mierzonych na skali co najmniej przedziałowej. Program oblicza cząstkowe użyteczności poszczególnych poziomów cech (przedstawiane także w formie wykresów), a także użyteczności całkowite dla każdej kombinacji cech produktu i każdego respondenta oraz ranking profili. Dodatkowo obliczane są relatywne oraz sumaryczne ważności analizowanych zmiennych. 0,4 Marka 0,3 0,2 Użyteczność cząstkowa 0,1 0,0-0,1-0,2-0,3 mieszana producenta dystrybutora Aglomeracja z punktem odcięcia Aglomeracja z punktem odcięcia uzupełnia klasyczny moduł aglomeracyjnej analizy skupień o możliwość wskazania (w sposób ręczny bądź automatyczny) optymalnego punktu odcięcia dendrogramu oraz przygotowania na tej podstawie zbioru danych z przypisaniem analizowanych obiektów do poszczególnych grup. Copyright StatSoft Polska
14 Metoda ocen porównawczych Thurstone a Moduł umożliwia zbudowanie metrycznej skali preferencji na podstawie danych o preferencjach uzyskanych z wykorzystaniem skali porównań parami bądź skali rangowej (jest ona przekształcana do skali porównań parami). Dodatkowo uzyskane wyniki można zobrazować za pomocą mapy percepcji utworzonej metodą skalowania wielowymiarowego Copyright StatSoft Polska 2012
15 Analiza PROFIT Moduł wykorzystuje metodę skalowania wielowymiarowego do budowy klasycznej mapy percepcji. W drugim kroku na mapę percepcji nakładane są dodatkowe osie opisujące wymiary i ułatwiające interpretację zbudowanej mapy. Do opisu osi można wykorzystać zarówno zmienne używane podczas skalowania, jak i dodatkowe zmienne. Uogólniona metoda składowych głównych Narzędzie umożliwiające wykonie analizy zarówno dla zmiennych ilościowych, jak i jakościowych. Moduł umożliwia automatyczne określenie optymalnej liczby składowych za pomocą sprawdzianu krzyżowego, a także dynamiczne dodawanie\usuwanie kolejnych składowych. Dostępny jest kompletny zestaw wyników przeprowadzonych analiz, w tym wykres osypiska oraz biplot. Copyright StatSoft Polska
16 Analizy dodatkowe przegląd modułów Miary efektu dla tabel 2x2 Moduł przeznaczony jest do obliczania na podstawie tabeli 2x2 szeregu wskaźników powiązania lub efektu. Na przykład umożliwia on obliczenie efektu związanego z binarną zmienną zależną, spowodowanego manipulacją zmienną niezależną. Moduł umożliwia zarówno obliczenie wskaźników na podstawie danych surowych, jak również ręczne wprowadzenie lub korektę wartości w tabeli Copyright StatSoft Polska 2012
17 Współczynniki zgodności sędziów Umożliwiają określenie zgodności pomiędzy ocenami tych samych obiektów pochodzącymi z różnych źródeł. Pierwsze dwie miary Kappa Cohena oraz Pi Scotta umożliwiają obliczenie wskaźnika zgodności pomiędzy dokładnie dwoma sędziami przy założeniu, że oceny są wyrażane na skali nominalnej. Kappa Fleissa rozszerza możliwość obliczania wskaźnika dla więcej niż dwóch sędziów. Alfa Krippendorfa pozwala dodatkowo na uwzględnienie innych skal niż nominalna (przy dowolnej liczbie sędziów). Analiza koncentracji Moduł ten pozwala obliczyć miary koncentracji dla pojedynczych cech. Koncentracja jest tutaj rozumiana jako nierównomierny podział ogólnej sumy wartości analizowanej zmiennej pomiędzy poszczególne przypadki należące do analizowanego zbioru. Bardzo często tego typu analizy wykonuje się przy badaniu dochodów, koncentracji produkcji, gęstości zaludnienia itp. Koncentracja może być mierzona za pomocą wskaźników Giniego bądź Herfindahla oraz przedstawiona za pomocą krzywej koncentracji Lorenza. Miary efektu Moduł umożliwia obliczenie miar pozwalających na zbadanie siły związku pomiędzy dwiema zmiennymi w analizowanej zbiorowości. W module zaimplementowano trzy miary efektu: d Cohena, g Hedgesa, Δ Glassa. Copyright StatSoft Polska
18 Kalkulator liczebności próby Moduł umożliwia obliczenie minimalnej liczebności próby pozwalającej z zadanym błędem oszacować liczebność próby dla frakcji lub dla zadanej liczebności próby obliczyć błąd oszacowania. Dodatkowymi parametrami uwzględnianymi w analizie są: Poziom ufności, Liczebność populacji oraz Wskaźnik struktury. Test post-hoc dla ANOVA Friedmana Moduł umożliwia wykonanie testu post-hoc dla ANOVY Friedmana. Test może zostać obliczony dla Średnich rang oraz Sum rang. Użytkownik może także wskazać interesujący go poziom istotności. Wykresy przegląd modułów Następna grupa modułów to Wykresy umożliwiająca między innymi utworzenie wykresu radarowego dla analizowanych zmiennych. Dodatkowo istniejące w programie STATISTICA wykresy słupkowe i sekwencyjne zostały dostosowane do szczególnych wymagań użytkowników zajmujących się analizami danych marketingowych Copyright StatSoft Polska 2012
19 Wykres sekwencyjny i słupkowy Wykresy sekwencyjne oraz słupkowe są typowymi wykresami dostępnymi w programie STATISTICA. Zostały one dodatkowo dostosowane, aby spełnić swoiste wymagania użytkowników. Wykres radarowy Moduł umożliwia utworzenie wykresu radarowego dla wskazanej liczby wymiarów i obiektów. Obliczenia można wykonywać dla średnich oraz median. Wykres Blanda-Altmana Wykres Blanda-Altmana wykorzystywany najczęściej w chemometrii i biostatystyce przedstawia stopień zgodności pomiędzy dwiema różnymi próbami bądź wskaźnikami. Merytorycznie jest on identyczny z wykresem średniej różnicy Tukeya. Jednym z głównych zastosowań wykresu Blanda-Altmana jest porównanie dwóch wskaźników klinicznych, z których każdy obciążony jest pewnym błędem pomiaru. Może być on także wykorzystany do porównania nowej techniki pomiaru bądź wskaźnika z obowiązującym złotym standardem. Copyright StatSoft Polska
20 Na wykresie przedstawia się przedziały zgodności liczone jako średnia różnica pomiędzy badanymi wskaźnikami ± 1,96* odchylenie standardowe różnicy. Narzędzia Grupa Narzędzia umożliwia zapis wykresów zapisanych w skoroszycie STATISTICA w postaci plików graficznych o wskazanym formacie i rozdzielczości. Dodatkowo moduł Zapisz do MS Excel umożliwia zapisanie kolejnych obiektów skoroszytu STATISTICA w postaci osobnych zakładek arkusza MS Excel. Grupę uzupełnia moduł Formatuj arkusz lub skoroszyt, który pozwala nadać wynikowym arkuszom STATISTICA pożądany przez użytkownika format użytkownik określa sposób wyświetlania wartości komórek, typ i wielkość czcionki i inne parametry arkusza istotne podczas publikacji wyników. Przykłady analiz w STATISTICA Zestaw Plus Reguły poprawności danych Definiowanie reguł poprawności danych zaprezentowane zostanie na podstawie zbioru Adstudy.sta zawierającego przykładowe wyniki badań preferencji konsumentów. Z menu STATISTICA Zestaw Plus Przygotowanie danych wybieramy opcję Reguły poprawności danych, przywołując okno o tej samej nazwie. Następnie klikamy przycisk Dodaj, co spowoduje dodanie do listy reguł nowego wiersza. W polu Warunek możemy określić, czy definiowana reguła będzie regułą poprawności czy też błędu. Samą regułę określamy 46 Copyright StatSoft Polska 2012
21 w polu Reguła, wpisując ją ręcznie lub korzystając z pomocy kreatora (okno Edytor reguł), który przywołujemy, klikając dwukrotnie na tym polu. Edytor reguł umożliwia wygodne definiowanie reguł poprawności. Przykładowo załóżmy, że przypadki niepoprawne to takie, dla których zmienna PŁEĆ to Mężczyzna i równocześnie zmienna POMIAR1 jest większa od 3. Aby wstawić do reguły nazwy zmiennych, klikamy dwukrotnie na wybranym polu listy znajdującej się po lewej stronie okna, natomiast nazwy klas zmiennych jakościowych dostępne są w dolnej części okna po kliknięciu na odpowiedniej zmiennej na liście. Operatory matematyczne oraz logiczne wstawiamy za pomocą odpowiednich przycisków (dodatkowo reguły mogą zawierać te same funkcje, jakie są dostępne w formułach zmiennych). Przygotowywana reguła wyświetla się w górnej części edytora. Po określeniu reguły klikamy przycisk Zapisz, wracając do okna Reguły poprawności danych. Copyright StatSoft Polska
22 Określona reguła poprawności została wstawiona do pola edycji. Klikając przycisk Dodaj, możemy w sposób analogiczny definiować kolejne reguły. Sprawdzenie poprawności wykonujemy, klikając przycisk Sprawdź, co spowoduje, że dla każdej zdefiniowanej reguły utworzona zostanie dodatkowa zmienna informująca, czy dany przypadek jest poprawny (wartość 1) czy też niepoprawny (wartość 0) względem zdefiniowanej reguły. Jeśli zdefiniowaliśmy więcej niż jedną regułę, wtedy zaznaczenie opcji Dodatkowa zmienna spowoduje utworzenie zmiennej informującej o poprawności względem wszystkich reguł równocześnie. Opcja Stany przypadków umożliwia z kolei wyróżnienie niepoprawnych przypadków za pomocą stanu Wyróżniony (w nazwie przypadku pojawi się czerwony wykrzyknik). Po kliknięciu przycisku Sprawdź została dodana zmienna Reguła zawierająca informację o poprawności danego przypadku. Dodatkowo w tej zmiennej w polu Długa nazwa została wpisana treść zdefiniowanej reguły. PROFIT Analiza PROFIT jest procedurą łączącą dwie popularne techniki analityczne, skalowanie wielowymiarowe oraz regresję wieloraką. Celem skalowania wielowymiarowego jest graficzna prezentacja struktury podobieństwa pomiędzy analizowanymi obiektami względem wybranego zbioru zmiennych. Struktura ta jest zazwyczaj prezentowana za pomocą dwuwymiarowego (niekiedy trójwymiarowego) wykresu rozrzutu, często określanego mianem mapy percepcji bądź mapy podobieństw. Aby ułatwić interpretację uzyskanego wykresu rozrzutu obiektów oraz wyjaśnić wymiary mapy podobieństw, wykonujemy analizę regresji, w wyniku której na uzyskaną mapę nakładane są dodatkowe osie opisujące wymiary i ułatwiające interpretację zbudowanej mapy. Poniższy przykład analizy oraz opis metody został zaczerpnięty z opracowania P. Jabkowskiego [2] Copyright StatSoft Polska 2012
23 Skalowanie wielowymiarowe jest w swojej naturze podobne do analizy czynnikowej z tą różnicą, że powiązania pomiędzy poszczególnymi obiektami mogą być wyrażone nie tylko poprzez macierze korelacji, ale także jako macierze dowolnych miar odległości, np. euklidesowej, kwadratu odległości euklidesowej, miejskiej Manhattan, Czebyszewa, niezgodności procentowej, potęgowej i innych. Jest to o tyle istotne, że skalowanie wielowymiarowe pozwala porównywać obiekty nie tylko względem cech ilościowych, ale także tych jakościowych. Zakres wykorzystania skalowania wielowymiarowego (analizy PROFIT) jest więc szerszy, niż zakres zastosowań analizy czynnikowej. Głównym celem skalowania wielowymiarowego jest graficzna prezentacja struktury podobieństwa (lub odmienności) pomiędzy analizowanymi obiektami względem wybranego zbioru zmiennych (cech). Generalnie zatem rzecz ujmując, skalowanie wielowymiarowe dąży do takiego uporządkowania obiektów, by jednocześnie zredukować liczbę wymiarów i możliwie najlepiej odtworzyć pierwotne obserwowane odległości (różnice) pomiędzy obiektami. Graficzna prezentacja wyników przyjmuje dobrze znaną postać wykresu rozrzutu obiektów, nazywaną mapą skalowania wielowymiarowego. Mapa taka, najczęściej 2- lub 3-wymiarowa, ma bardzo prostą interpretację. Przyjmuje się bowiem, że im mniejsza odległość pomiędzy badanymi obiektami, tym są one bardziej do siebie podobne. W ten sposób można wyznaczać grupy (klastry) obiektów, obiekty izolowane itd. Przykładowe mapy skalowania wielowymiarowego, dla dwóch oraz trzech wymiarów, zaprezentowane zostały na poniższym rysunku. W wyniku skalowania wielowymiarowego otrzymujemy zatem przestrzeń, na której rozlokowane są interesujące nas obiekty. Po utworzeniu takiej mapy, każdemu obiektowi przyporządkować można wartości, które odpowiadają współrzędnym na mapie MDS. Ponieważ celem analizy PROFIT jest interpretacja tego, w jaki sposób wejściowy zbiór cech obiektów odwzorowany jest na osiach skalowania wielowymiarowego, to te współrzędne (koordynaty) przypisane obiektom, traktować będzie się jako zmienne wyjaśniające (niezależne), a wartości poszczególnych cech obiektów jako zmienne zależne (wyjaśniane). Potrzeba nam bowiem informacji o tym, w jaki sposób (w jakim kierunku) na płaszczyźnie Copyright StatSoft Polska
24 (w przestrzeni) ułożone są obiekty, ze względu na natężenie każdej z tych wejściowych cech. Sposobem na to jest estymacja parametrów modelu, poprzez odniesienie każdej cechy do pozycji obiektów na mapie MDS. Algorytm analizy PROFIT wykorzysta zatem informacje o współrzędnych (jako zmiennych niezależnych) oraz wartościach obiektów względem każdej z poszczególnych cech (jako zmiennych zależnych), przeprowadzając analizy regresji wielorakiej. Wykonanych będzie tyle analiz regresyjnych, ile cech (zmiennych) uwzględniono w skalowaniu wielowymiarowym. Dla przykładu, jeżeli marki pewnych produktów oceniane były pod względem pięciu cech, to dla każdej takiej cechy przeprowadzona będzie analiza regresji. Standaryzowane współczynniki równań regresyjnych odpowiadające każdej z osi skalowania wielowymiarowego wyznaczają punkt na mapie MDS określający współrzędne danej cechy (zmiennej). Innymi słowy, to właśnie one pozwalają ustalić, w jaki sposób ulokowane są interesujące nas obiekty ze względu na natężenie danej cechy. Należy mieć na uwadze fakt, że dla opisu wyników bez znaczenia pozostaje odległość danego obiektu od prostej, na której położony jest wektor, interpretuje się z kolei uszeregowanie rzutów obiektów na takie proste. Z zaprezentowanych danych można odczytać, że względem cechy 1, uszeregowanie obiektów wygląda tak, że największym natężeniem wartości zmiennej (cechy) charakteryzuje się obiekt O3, natomiast najmniejszym obiekt O5. Dla przykładu w badaniach marketingowych można by dokonać skalowania wielowymiarowego pewnych marek produktów względem kilku cech, z których jedną stanowiłaby ocena prestiżu danej marki. Rzutując dane marki produktów na wektor prestiżu, otrzymano by informację o tym, która marka cieszy się największym, a która najmniejszym prestiżem wśród respondentów Copyright StatSoft Polska 2012
25 Dokonując interpretacji wyników analizy PROFIT, należy także rozpatrzyć współczynniki determinacji równań regresyjnych. Pokazują one, w jakim stopniu uszeregowanie obiektów względem wartości danej cechy wyjaśniane jest poprzez położenie tych obiektów na płaszczyźnie. W badaniach marketingowych oraz badaniach rynku procedura skalowania wielowymiarowego, w tym także analiza PROFIT, zyskała swoje szczególne uznanie w zakresie budowy map percepcyjnych. Wykorzystuje się je np. wtedy, gdy głównym celem analiz jest ustalenie, w jakim zakresie (względem jakich wymiarów) porównywane między sobą towary, usługi, czy też produkty, uznawane są przez respondentów jako podobne. Podstawą skalowania wielowymiarowego jest w takich przypadkach macierz relacji podobieństwa pomiędzy analizowanymi markami produktów (obiektami). Następnie wyliczane są uśrednione oceny preferencji dla poszczególnych marek produktów, które wykorzystuje się w równaniach regresyjnych. Standaryzowane współczynniki równań regresyjnych wyznaczają zwrot i kierunek wektora danej cechy produktu i tym samym umożliwiają ustalenie preferencji produktów względem tej cechy. Przejdźmy teraz do praktycznej implementacji procedury PROFIT w programie STATISTICA Zestaw Plus. Dane wykorzystywane w przykładzie pochodzą z badań opartych na wywiadach kwestionariuszowych prowadzonych wśród odbiorców usług komunalnych w Poznaniu. Celem badań było ustalenie tego, w jaki sposób mieszkańcy miasta oceniają firmy świadczące usługi w zakresie: (1) dostarczania ciepła do mieszkań, (2) dostarczania gazu, (3) dostarczania wody, (4) dostarczania energii elektrycznej, (5) oczyszczania miasta oraz (6) transportu publicznego. Poszczególne firmy oceniane były pod względem (a) nowoczesności, (b) konkurencyjności, (c) jakości świadczonych usług, (d) dynamiczności rozwoju, (e) dbania o klienta oraz (f) wiarygodności. Wykorzystano w tym celu tzw. dyferencjał semantyczny, tzn. proszono respondentów, aby w ramach oceny każdej firmy dokonali ewaluacji tego, czy uważają ją za: (a) nowoczesną czy przestarzałą, (b) konkurencyjną czy niekonkurencyjną itd. dla każdej z takich cech. W ramach każdego wymiaru oceny odpowiedziom respondentów przypisano wagi liczbowe w ten sposób, że odpowiedzi skrajnie pozytywnej przypisano wartość +3, odpowiedzi neutralnej wartość 0, natomiast odpowiedzi skrajnie negatywnej wartość -3. Cała gama wartości obejmowała następujący zbiór wag: -3, -2, -1, 0, +1, Na podstawie jednostkowych odpowiedzi respondentów uśredniono wyniki Copyright StatSoft Polska
26 dyferencjału semantycznego, uzyskując oceny poszczególnych firm z punktu widzenia wyróżnionych wymiarów oceny. Pierwszym ułatwieniem, jakie daje moduł analizy PROFIT względem modułu analizy skalowania wielowymiarowego, jest sposób przygotowania pliku wejściowego do analizy. Prowadząc w programie STATISTICA skalowanie wielowymiarowe, należy przekształcić plik wejściowy do postaci macierzowej, z wyliczonymi odległościami pomiędzy rozpatrywanymi obiektami. Przeprowadzenie skalowania wielowymiarowego możliwe jest więc dopiero po odpowiednim zapisaniu danych w pliku macierzowym. W analizie PROFIT taka transformacja pliku danych do postaci macierzowej nie jest konieczna, wystarczy wyliczyć statystyki punktowe (np. średnią arytmetyczną, medianę czy też wskaźnik struktury) charakteryzujące obiekty względem interesujących nas cech. Poniższy rysunek zawiera zestawienie danych wejściowych wykorzystanych w opisywanym przykładzie. Na tak przygotowanych danych rozpocząć można procedurę analizy PROFIT. Po jej uruchomieniu okno programu wygląda następująco Copyright StatSoft Polska 2012
27 Konieczne jest ustalenie wejściowych warunków dla wykonania analizy PROFIT. W pierwszej kolejności określić należy format danych dla analizy. Ponieważ dane w przykładzie zapisane zostały jako uśrednione oceny poszczególnych firm w ramach każdego z sześciu wymiarów, to format danych ustalamy jako uśrednione oceny obiektów z punktu widzenia cech. Do wyboru mamy także siedem miar odległości w tym: kwadrat odległości euklidesowej, odległość euklidesową, odległość miejską (tzw. Manhattan), odległość Czebyszewa, odległość potęgową, niezgodność procentową, a także odległość opartą na korelacjach liniowych Pearsona. Zauważmy, że w programie STATISTICA analiza PROFIT oferuje ten sam zestaw miar odległości, który dostępny jest również w procedurze skalowania wielowymiarowego (PROFIT jest przecież rozszerzeniem MDS), a także w module analizy skupień programu STATISTICA. Celem wszystkich tych procedur jest analiza podobieństw, stąd konsekwentnie dostępny jest ten sam zestaw miar odległości. Po ustaleniu tych podstawowych warunków procedury PROFIT możemy przejść do wyboru zmiennych (cech), które będą podstawą skalowania obiektów. W naszym przykładzie do utworzenia mapy percepcji firm świadczących usługi komunalne wybierzemy wszystkie sześć cech, względem których firmy te oceniane były przez mieszkańców. Po zaakceptowaniu listy zmiennych program przechodzi do okna PROFIT wyniki. Na podstawie danych wejściowych algorytm analizy PROFIT wykonał już skalowanie wielowymiarowe obiektów na płaszczyźnie, chociaż na tym etapie program nie przedstawia jeszcze mapy podobieństw. Co ważne, w klasycznym skalowaniu wielowymiarowym możliwe jest utworzenie mapy o dowolnej liczbie wymiarów, natomiast algorytm procedury PROFIT w programie STATISTICA został zaprogramowany tak, by zawsze dać rozwiązanie dwuwymiarowe. Z technicznych przyczyn niemożliwe było wykreślenie rozwiązania w trzech wymiarach. Załóżmy zatem, że po przeprowadzeniu klasycznego skalowania wielowymiarowego (analiza ta dostępna jest w module wielowymiarowe techniki eksploracyjne programu STATISTICA) także otrzymalibyśmy wynik w postaci mapy 2D. Takie rozwiązanie pozwoliłoby wprawdzie ustalić, które firmy są bardziej, a które mniej do siebie podobne, nie sposób jednak byłoby w prosty sposób stwierdzić, jak grupują się te obiekty względem Copyright StatSoft Polska
28 interesujących nas cech. Innymi słowy nie bylibyśmy w stanie intuicyjnie ustalić, względem jakich cech rozpatrywane obiekty są do siebie podobne, a względem jakich cech odmienne. Powróćmy zatem do analizy PROFIT, która na tym etapie dała na razie te same rezultaty co skalowanie wielowymiarowe. W oknie wyników analizy PROFIT teraz ponownie wybieramy obiekty oraz ustalamy, które zmienne wykorzystane będą do opisu wymiarów skalowania wielowymiarowego. W naszym przypadku porównywać będziemy wszystkie firmy (obiekty), a do opisu wymiarów wykorzystamy wszystkie zmienne wejściowe. Zauważmy jednak, że lista zmiennych do opisu wymiarów może być inna, niż lista zmiennych na podstawie której dokonano skalowania wielowymiarowego obiektów. Bardzo często jednak do opisu wymiarów wykorzystujemy zarówno dane wejściowe, jak i dodatkowe informacje. Dla przykładu moglibyśmy dla analizowanych przez nas firm zebrać dodatkowe dane dotyczące wydatków na kampanie promocyjne i zdiagnozować, na ile ocena firm jest powiązana z działaniami Public Relations. Jeżeli w oknie wyników analizy PROFIT zaznaczymy również opcje dołączenia wyników regresji, to program zamieści w skoroszycie wyniki tylu modeli regresyjnych, ile zmiennych wybrano do opisu wyników. Każda z tych zmiennych jest objaśniana poprzez położenie (współrzędne) obiektów na płaszczyźnie (rys. poniżej) Copyright StatSoft Polska 2012
29 Na podstawie takich danych przeprowadzane są analizy regresyjne. Przykładowy wynik analizy regresji dla wymiaru oceny konkurencyjności rozpatrywanych firm przedstawiony został na poniższym rysunku. Po przeprowadzeniu analiz regresyjnych dla wszystkich zmiennych, algorytm analizy PROFIT naniesie współczynniki kierunkowe określające zwrot i kierunek wektora, odpowiadającego każdej z cech wybranych do opisu wymiarów. Ostatecznym wynikiem analizy PROFIT jest mapa percepcji z wektorami opisującymi poszczególne wymiary płaszczyzny. Wynik analizy PROFIT z naniesionymi współrzędnymi poszczególnych cech pozwala teraz na bardzo intuicyjną interpretację podobieństw i odmienności pomiędzy analizowanymi firmami. Dla przykładu z wykresu tego można odczytać, że Firma 4 jest oceniana jako najbardziej konkurencyjna i pod tym względem podobna jest do Firmy 5. To, co Copyright StatSoft Polska
30 odróżnia obie firmy, to np. ocena ich nowoczesności i dynamiczności rozwoju; Firma 5 oceniana jest w obu wymiarach najwyżej, natomiast Firma 4 najniżej. Podobnie można zauważyć, że Firma 1 ma najwyższe oceny w zakresie wiarygodności działań, dbania o klienta oraz jakości świadczenia usług, z kolei najgorsze oceny w tym względzie otrzymała Firma 3 oraz Firma 4. Analogiczne wnioskowanie można przeprowadzić dla dowolnego obiektu oraz dowolnego wymiaru osi skalowania wielowymiarowego. Aglomeracja z punktem odcięcia Metoda aglomeracyjna jest hierarchiczną metodą analizy skupień. Algorytm aglomeracji służy do grupowania obiektów w coraz to większe zbiory (skupienia), z zastosowaniem pewnej miary podobieństwa lub odległości. Typowym wynikiem tego typu grupowania jest hierarchiczne drzewo. Na początku tej analizy uznajemy, że każdy element zbioru stanowi oddzielną grupę. Następnie stopniowo osłabiamy kryterium uznawania obiektów za takie same, co powoduje grupowanie się podobnych obiektów. W miarę dalszego osłabiania kryterium wiążemy ze sobą coraz więcej obiektów i agregujemy je w coraz większe skupienia elementów, coraz bardziej różniących się od siebie. W końcu, na ostatnim etapie, wszystkie obiekty zostają ze sobą połączone. Efekty działania tego algorytmu można przedstawić w formie hierarchicznego drzewa, które przedstawia kolejne kroki działania analizy. Tego typu analizę możemy przeprowadzić nie tylko dla przypadków, ale również dla zmiennych, co polega na łączeniu najbardziej podobnych zmiennych (w sensie odległości, a nie korelacji) w grupy, podobnie jak przedstawiono powyżej. Ważnym parametrem 56 Copyright StatSoft Polska 2012
31 wpływającym na jakość procesu grupowania jest wybór metody aglomeracji, czyli sposobu liczenia odległości pomiędzy skupieniami (według wybranej metryki). Odległość między skupieniami może być liczona jako odległość między najbliższymi (pojedyncze wiązanie) lub najdalszymi (pełne wiązanie) reprezentantami poszczególnych skupisk, bądź też na podstawie średnich, median lub środków ciężkości skupień (ważonych lub nieważonych). Metoda Warda (minimum wariancji) wykorzystuje w wyodrębnianiu skupisk zasadę minimalizacji wariancji wewnątrzklasowej. W tej ostatniej metodzie wyodrębniania skupisk powinna być stosowana odległość euklidesowa lub kwadratowa odległość euklidesowa. Spośród wymienionych metod najbardziej godna polecenia ze względu na kryterium efektywności odtwarzania rzeczywistej struktury danych jest metoda Warda. Metoda aglomeracyjna jest rzadko stosowana w segmentacji dużej liczby obiektów (powyżej 300), ponieważ wymaga obliczenia macierzy odległości pomiędzy wszystkimi analizowanymi obiektami, co jest bardzo wymagające numerycznie, jeszcze bardziej ograniczającym kryterium jest kwestia czytelności wykresu aglomeracji, który traci przejrzystość przy większej liczbie obiektów. Metoda ta jest jednak bardzo pomocna podczas ustalania optymalnej liczby skupień, na jaką należy podzielić analizowaną zbiorowość. Określając optymalną liczbę segmentów na podstawie analizy aglomeracyjnej, możemy posłużyć się na przykład kryterium maksymalnego ilorazu odległości aglomeracyjnych wykorzystywanych w dwóch sąsiednich aglomeracjach. Innym kryterium może być pierwszy wyraźny przyrost odległości aglomeracyjnej, który możemy zaobserwować, analizując wykres odległości aglomeracyjnej dla kolejnych etapów wiązania. 50 Wykres odległości wiązania względem etapów wiązania Odległ. euklidesowa Odległość wiąz Krok Wiązania Odległ. Przedstawimy teraz przykład przygotowania modelu aglomeracyjnego na przykładzie pliku Cars.sta, zawierającego informacje o parametrach samochodów różnych marek (wybierano losowo jeden konkretny model spośród modeli oferowanych przez danego producenta). Copyright StatSoft Polska
32 Z menu STATISTICA Zestaw Plus Analizy wybieramy polecenie Aglomeracja z punktem odcięcia, przywołując okno Metoda aglomeracyjna. W pierwszej kolejności wskazujemy zmienne do analizy, klikając przycisk Zmienne i wybierając do analizy wszystkie zmienne. Ponieważ dokonano już standaryzacji danych, nie zaznaczamy opcji Standaryzuj wartości. Pozostałe opcje pozostawiamy na domyślnych ustawieniach i zatwierdzamy wykonanie analizy, klikając OK, przywołując okno Metoda aglomeracyjna-wyniki. Aby ocenić przebieg aglomeracji, przechodzimy na kartę Więcej i klikamy Wykres, aby wyświetlić przebieg procesu aglomeracji. Zwykle bardzo dobrym punktem odcięcia jest pierwszy wyraźny przyrost odległości aglomeracyjnej. Możemy zauważyć taki przyrost dla odległości równej około 3 (rysunek powyżej). Przyjmijmy, że punkt ten będzie punktem odcięcia dendrogramu Copyright StatSoft Polska 2012
33 Przechodząc na kartę Podstawowe, w obszarze Poziom odcięcia możemy zauważyć, że mechanizm automatycznego określania punktu odcięcia zaproponował podobne rozwiązanie (oczywiście my ręcznie możemy tę wartość zmienić, kierując się na przykład kwestiami merytorycznymi). Klikamy Pionowy, aby wyświetlić wykres hierarchiczny. Analizując powyższy wykres, możemy zauważyć, że efektem proponowanego rozwiązania będzie siedem skupień, przy czym Isuzu, Eagle oraz Ford tworzą skupienia jednoelementowe. Jeśli uznalibyśmy proponowane rozwiązanie za satysfakcjonujące, na karcie Podstawowe klikamy przycisk Zapisz, włączając wcześniej opcję Dołącz zmienne. W wyniku Copyright StatSoft Polska
34 analizy otrzymujemy arkusz danych z zestawem zmiennych wejściowych oraz dodatkową zmienną Segment zawierającą informację o segmencie, do którego trafiła analizowana obserwacja. Zakończenie STATISTICA Zestaw Plus jest zbiorem modułów analitycznych i kreatorów ułatwiających i przyspieszających proces opracowania wyników badań. Wersję testową narzędzia można pobrać z naszych stron internetowych: Na naszych stronach internetowych w dziale czytelnia oraz webinaria można zapoznać się z przykładami wykorzystania innych modułów STATISTICA Zestaw Plus. Przykładowo opisy wykorzystania krzywych ROC czy też metaanalizy są zawarte w artykułach zamieszczonych literaturze. Można je pobrać w naszej czytelni internetowej pod wskazanymi adresami. Literatura 1. Harańczyk G., Krzywe ROC czyli ocena jakości klasyfikatora i poszukiwanie optymalnego punktu odcięcia, Materiały z seminariów, StatSoft Polska 2009, Copyright StatSoft Polska 2012
35 2. Jabkowski P., O korzyściach wynikających z zastosowania analizy PROFIT, Praktyczna analiza danych w marketingu i badaniach rynku, Materiały z seminariów, StatSoft Polska Kusy M., Ilościowa synteza wyników badań pierwotnych - metaanaliza w STATISTICA Zestawie Medycznym, Materiały z seminariów, StatSoft Polska 2009, 4. Migut G., Zastosowanie technik analizy skupień i drzew decyzyjnych do segmentacji rynku; Zastosowania nowoczesnej analizy danych w marketingu i badaniach rynku, Materiały z seminariów, StatSoft Polska STATISTICA Zestaw Plus dokumentacja techniczna, StatSoft Polska Copyright StatSoft Polska
OPIS PRZEDMIOTU ZAMÓWIENIA. Część nr 8 OPROGRAMOWANIE DO ANALIZ MARKETINGOWYCH (pom. nr 1.21)
Zamówienie publiczne współfinansowane przez Unię Europejską ze środków Europejskiego Funduszu Rozwoju Regionalnego w ramach Regionalnego Programu Operacyjnego Województwa Mazowieckiego 2007-2013 w związku
PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA
PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA Krzysztof Suwada, StatSoft Polska Sp. z o.o. Wstęp Wiele różnych analiz dotyczy danych opisujących wielkości charakterystyczne bądź silnie
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
KREATOR REGRESJI LOGISTYCZNEJ
KREATOR REGRESJI LOGISTYCZNEJ Grzegorz Migut, StatSoft Polska Sp. z o.o. W niniejszym opracowaniu zaprezentowany zostanie przykład budowy modelu regresji logistycznej za pomocą Kreatora Regresji Logistycznej.
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Skalowanie wielowymiarowe idea
Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy
Analiza Statystyczna
Lekcja 5. Strona 1 z 12 Analiza Statystyczna Do analizy statystycznej wykorzystać można wbudowany w MS Excel pakiet Analysis Toolpak. Jest on instalowany w programie Excel jako pakiet dodatkowy. Oznacza
O KORZYŚCIACH WYNIKAJĄCYCH Z ZASTOSOWANIA ANALIZY PROFIT
O KORZYŚCIACH WYNIKAJĄCYCH Z ZASTOSOWANIA ANALIZY PROFIT Piotr Jabkowski, Uniwersytet im. A. Mickiewicza w Poznaniu Celem referatu jest ukazanie korzyści z wykorzystania analizy PROFIT (PROperty FITting)
Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;
LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny
Analiza korespondencji
Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy
Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych
PROJEKT: Analiza kluczowych parametrów turbin wiatrowych Projekt jest wykonywany z wykorzystaniem pakietu statystycznego STATISTICA. Praca odbywa się w grupach 2-3 osobowych. Aby zaliczyć projekt, należy
Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania
Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja
3.7. Wykresy czyli popatrzmy na statystyki
3.7. Wykresy czyli popatrzmy na statystyki Współczesne edytory tekstu umożliwiają umieszczanie w dokumentach prostych wykresów, służących do graficznej reprezentacji jakiś danych. Najprostszym sposobem
Jak przekształcać zmienne jakościowe?
Data Preparation Jak przekształcać zmienne jakościowe? Marta Płonka Predictive Solutions W ostatnim artykule zobaczyliśmy, jak sprawdzić, czy między wybranymi przez nas predyktorami a zmienną przewidywaną
Sposoby prezentacji problemów w statystyce
S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki
Regresja linearyzowalna
1 z 5 2007-05-09 23:22 Medycyna Praktyczna - portal dla lekarzy Regresja linearyzowalna mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie Data utworzenia:
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii
SPIS TREŚCI Przedmowa... 11 Wykaz symboli... 15 Litery alfabetu greckiego wykorzystywane w podręczniku... 15 Symbole wykorzystywane w zagadnieniach teorii mnogości (rachunku zbiorów)... 16 Symbole stosowane
( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:
ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość
W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:
Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna
1 Laboratorium VIII: Analiza kanoniczna Spis treści Laboratorium VIII: Analiza kanoniczna... 1 Wiadomości ogólne... 2 1. Wstęp teoretyczny.... 2 Przykład... 2 Podstawowe pojęcia... 2 Założenia analizy
Wprowadzenie do analizy dyskryminacyjnej
Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela
Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.
Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00±0,20)
Wykład 3: Prezentacja danych statystycznych
Wykład 3: Prezentacja danych statystycznych Dobór metody prezentacji danych Dobór metody prezentacji danych zależy od: charakteru danych statystycznych (inne metody wybierzemy dla danych przekrojowych,
Wykład 4: Statystyki opisowe (część 1)
Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można
Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.
ANALIZA SKUPIEŃ Metoda k-means I. Cel zadania Zadaniem jest analiza zbioru danych, gdzie zmiennymi są poziomy ekspresji genów. Podczas badań pobrano próbki DNA od 36 różnych pacjentów z chorobą nowotworową.
Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22
Spis treści Przedmowa do wydania pierwszego.... 11 Przedmowa do wydania drugiego.... 15 Wykaz symboli.... 17 Litery alfabetu greckiego wykorzystywane w podręczniku.... 17 Symbole wykorzystywane w zagadnieniach
KORELACJE I REGRESJA LINIOWA
KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem
Dopasowywanie modelu do danych
Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;
You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)
Prezentacja materiału statystycznego Szeroko rozumiane modelowanie i prognozowanie jest zwykle kluczowym celem analizy danych. Aby zbudować model wyjaśniający relacje pomiędzy różnymi aspektami rozważanego
LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej
LABORATORIUM 3 Przygotowanie pliku (nazwy zmiennych, export plików.xlsx, selekcja przypadków); Graficzna prezentacja danych: Histogramy (skategoryzowane) i 3-wymiarowe; Wykresy ramka wąsy; Wykresy powierzchniowe;
Badania eksperymentalne
Badania eksperymentalne Analiza CONJOINT mgr Agnieszka Zięba Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa Najpopularniejsze sposoby oceny wyników eksperymentu w schematach
Ćwiczenia nr 4. Arkusz kalkulacyjny i programy do obliczeń statystycznych
Ćwiczenia nr 4 Arkusz kalkulacyjny i programy do obliczeń statystycznych Arkusz kalkulacyjny składa się z komórek powstałych z przecięcia wierszy, oznaczających zwykle przypadki, z kolumnami, oznaczającymi
Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski
Literatura STATYSTYKA OPISOWA A. Aczel, Statystyka w Zarządzaniu, PWN, 2000 A. Obecny, Statystyka opisowa w Excelu dla szkół. Ćwiczenia praktyczne, Helion, 2002. A. Obecny, Statystyka matematyczna w Excelu
Wykład 2: Grupowanie danych (szeregi statystyczne) + porady dotyczące analizy danych w programie STATISTICA
Wykład 2: Grupowanie danych (szeregi statystyczne) + porady dotyczące analizy danych w programie STATISTICA Dobór metody prezentacji danych Dobór metody prezentacji danych zależy od: charakteru danych
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb
Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę
Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.
STATISTICA INSTRUKCJA - 1 I. Wprowadzanie danych Podstawowe / Nowy / Arkusz Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą
Wykład 5: Statystyki opisowe (część 2)
Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU
LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Jednym z elementów walidacji metod pomiarowych jest sprawdzenie liniowości
Kwerenda. parametryczna, z polem wyliczeniowym, krzyżowa
Kwerenda parametryczna, z polem wyliczeniowym, krzyżowa Operatory stosowane w wyrażeniach pól wyliczeniowych Przykład: wyliczanie wartości w kwerendach W tabeli Pracownicy zapisano wartości stawki godzinowej
PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
Ćwiczenie: Wybrane zagadnienia z korelacji i regresji
Ćwiczenie: Wybrane zagadnienia z korelacji i regresji W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Stanisza r xy = 0 zmienne nie są skorelowane 0 < r xy 0,1
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej
Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Paweł Cibis pawel@cibis.pl 23 lutego 2007 1 Regresja liniowa 2 wzory funkcje 3 Korelacja liniowa
Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35
Statystyka Wykład 7 Magdalena Alama-Bućko 16 kwietnia 2017 Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 1 / 35 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
% sumy wiersza nadrzędnego. % sumy kolumny nadrzędnej. % sumy elementu nadrzędnego. Porządkuj od najmniejszych do największych.
bieżąca w wyświetla wartości w kolejnych wierszach lub kolejnych kolumnach jako wartości skumulowane (w drugim wierszu wyświetla sumę wartości odpowiadających wierszom od do ; w wierszy od wiersza do,
Grupowanie materiału statystycznego
Grupowanie materiału statystycznego Materiał liczbowy, otrzymany w wyniku przeprowadzonej obserwacji statystycznej lub pomiaru, należy odpowiednio usystematyzować i pogrupować. Doskonale nadają się do
Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska
Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera
Badanie zależności skala nominalna
Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność
Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica
Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica 1. Zarządzanie danymi. Pierwszą czynnością w pracy z pakietem Statistica jest zazwyczaj wprowadzenie danych do arkusza. Oprócz możliwości
7.4 Automatyczne stawianie prognoz
szeregów czasowych za pomocą pakietu SPSS Następnie korzystamy z menu DANE WYBIERZ OBSERWACJE i wybieramy opcję WSZYSTKIE OBSERWACJE (wówczas wszystkie obserwacje są aktywne). Wreszcie wybieramy z menu
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak
Wzory dla szeregu szczegółowego: Wzory dla szeregu rozdzielczego punktowego: ->Średnia arytmetyczna ważona -> Średnia arytmetyczna (5) ->Średnia harmoniczna (1) ->Średnia harmoniczna (6) (2) ->Średnia
Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak
Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak Autor prezentuje spójny obraz najczęściej stosowanych metod statystycznych, dodatkowo omawiając takie
Analiza regresji - weryfikacja założeń
Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.
Testy nieparametryczne
Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów
W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1
Temat: Wybrane zagadnienia z korelacji i regresji W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00 0,20) Słaba
Rys.1. Technika zestawiania części za pomocą polecenia WSTAWIAJĄCE (insert)
Procesy i techniki produkcyjne Wydział Mechaniczny Ćwiczenie 3 (2) CAD/CAM Zasady budowy bibliotek parametrycznych Cel ćwiczenia: Celem tego zestawu ćwiczeń 3.1, 3.2 jest opanowanie techniki budowy i wykorzystania
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji
Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji
Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33
Statystyka Wykład 4 Magdalena Alama-Bućko 19 marca 2018 Magdalena Alama-Bućko Statystyka 19 marca 2018 1 / 33 Analiza struktury zbiorowości miary położenia ( miary średnie) miary zmienności (rozproszenia,
Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak
Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak Redakcja i korekta Bogdan Baran Projekt graficzny okładki Katarzyna Juras Copyright by Wydawnictwo Naukowe Scholar, Warszawa 2011 ISBN
Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie
Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie Zadanie Zbadano satysfakcję z życia w skali 1 do 10 w dwóch grupach rodziców: a) Rodzice dzieci zdrowych oraz b) Rodzice dzieci z niepełnosprawnością
Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007
Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja
Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych)
Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych) Funkcja uwikłana (równanie nieliniowe) jest to funkcja, która nie jest przedstawiona jawnym przepisem, wzorem wyrażającym zależność wartości
Opracował: mgr inż. Marcin Olech 2010-10-04
Laboratorium 4 Strona 1 z 17 Spis treści: 1. Wielowymiarowa analiza danych w arkusza kalkulacyjnych z wykorzystaniem MS Excel: a. tworzenie tabel przestawnych, b. tworzenie wykresów przestawnych. 2. Praca
SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.
SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
Narzędzie informatyczne wspomagające dokonywanie ocen pracowniczych w służbie cywilnej
Narzędzie informatyczne wspomagające dokonywanie ocen pracowniczych w służbie cywilnej elektroniczne formularze arkuszy ocen okresowych i pierwszej oceny Instrukcja użytkownika Wersja 1.0 DSC KPRM 2015
Regresja logistyczna (LOGISTIC)
Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss
Przygotowanie danych
2 Przygotowanie danych 2 Przygotowanie danych Przed opracowaniem statystycznym należy uporządkować dane. Czynność ta ułatwia opracowywanie danych. Od czasu, kiedy pojawiły się komputery, procedury porządkowania
System imed24 Instrukcja Moduł Analizy i raporty
System imed24 Instrukcja Moduł Analizy i raporty Instrukcja obowiązująca do wersji 1.8.0 Spis treści 1. Moduł Analizy i Raporty... 3 1.1. Okno główne modułu Analizy i raporty... 3 1.1.1. Lista szablonów
MODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
Arkusz kalkulacyjny MS EXCEL ĆWICZENIA 4
Arkusz kalkulacyjny MS EXCEL ĆWICZENIA 4 Uwaga! Każde ćwiczenie rozpoczynamy od stworzenia w katalogu Moje dokumenty swojego własnego katalogu roboczego, w którym będziecie Państwo zapisywać swoje pliki.
ANALIZA REGRESJI SPSS
NLIZ REGRESJI SPSS Metody badań geografii społeczno-ekonomicznej KORELCJ REGRESJ O ile celem korelacji jest zmierzenie siły związku liniowego między (najczęściej dwoma) zmiennymi, o tyle w regresji związek
Analiza składowych głównych
Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi
Zestaw Plus 3.0. instrukcja instalacji oraz podstawowe informacje o programie
Zestaw Plus 3.0 instrukcja instalacji oraz podstawowe informacje o programie SPIS TREŚCI 1. INSTRUKCJA INSTALACJI I DEZINSTALACJI PROGRAMU 5 1.1. Instalacja wersji jednostanowiskowej i wersji sieciowej
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31
Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4 Inne układy doświadczalne 1) Układ losowanych bloków Stosujemy, gdy podejrzewamy, że może występować systematyczna zmienność między powtórzeniami np. - zmienność
Próba własności i parametry
Próba własności i parametry Podstawowe pojęcia Zbiorowość statystyczna zbiór jednostek (obserwacji) nie identycznych, ale stanowiących logiczną całość Zbiorowość (populacja) generalna skończony lub nieskończony
Arkusz kalkulacyjny Excel
Arkusz kalkulacyjny Excel Ćwiczenie 1. Sumy pośrednie (częściowe). POMOC DO ĆWICZENIA Dzięki funkcji sum pośrednich (częściowych) nie jest konieczne ręczne wprowadzanie odpowiednich formuł. Dzięki nim
Uruchom polecenie z menu Wstaw Wykres lub ikonę Kreator wykresów na Standardowym pasku narzędzi.
Tworzenie wykresów w Excelu. Część pierwsza. Kreator wykresów Wpisz do arkusza poniższą tabelę. Podczas tworzenia wykresów nie ma znaczenia czy tabela posiada obramowanie lub inne elementy formatowania
Jak korzystać z Excela?
1 Jak korzystać z Excela? 1. Dane liczbowe, wprowadzone (zaimportowane) do arkusza kalkulacyjnego w Excelu mogą przyjmować różne kategorie, np. ogólne, liczbowe, walutowe, księgowe, naukowe, itd. Jeśli
Niestandardowa tabela częstości
raportowanie Niestandardowa tabela częstości Przemysław Budzewski Predictive Solutions Do czego dążymy W Generalnym Sondażu Społecznym USA w 1991 roku badaniu poddano respondentów należących do szeregu
Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41
Statystyka Wykład 4 Magdalena Alama-Bućko 13 marca 2017 Magdalena Alama-Bućko Statystyka 13 marca 2017 1 / 41 Na poprzednim wykładzie omówiliśmy następujace miary rozproszenia: Wariancja - to średnia arytmetyczna
Indukowane Reguły Decyzyjne I. Wykład 8
Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne
Sposób tworzenia tabeli przestawnej pokażę na przykładzie listy krajów z podstawowymi informacjami o nich.
Tabele przestawne Tabela przestawna to narzędzie służące do tworzenia dynamicznych podsumowań list utworzonych w Excelu lub pobranych z zewnętrznych baz danych. Raporty tabeli przestawnej pozwalają na
Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)
Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące
Kolumna Zeszyt Komórka Wiersz Tabela arkusza Zakładki arkuszy
1 Podstawowym przeznaczeniem arkusza kalkulacyjnego jest najczęściej opracowanie danych liczbowych i prezentowanie ich formie graficznej. Ale formuła arkusza kalkulacyjnego jest na tyle elastyczna, że
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Metody sprawdzania założeń w analizie wariancji: -Sprawdzanie równości (jednorodności) wariancji testy: - Cochrana - Hartleya - Bartletta -Sprawdzanie zgodności
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną