Statystyczne metody analizy danych przy użyciu środowiska R

Wielkość: px
Rozpocząć pokaz od strony:

Download "Statystyczne metody analizy danych przy użyciu środowiska R"

Transkrypt

1 Statystyczne metody analizy danych przy użyciu środowiska R Agnieszka Nowak - Brzezińska Instytut Informatyki, Uniwersytet Śląski Wybrane zagadnienia

2 Plan wystąpienia 1. Wprowadzenie. 2. Środowisko R. 3. Wybrane metody analizy danych: ˆ Prezentacja danych. ˆ Regresja liniowa, predykcja danych. ˆ Obserwacje odstające a obserwacje wpływowe. 4. Podsumowanie.

3 Środowisko R ˆ Jest to bardzo elastyczne (darmowe) środowisko analityczne o bogatej funkcjonalności, które jest stosowane w wielu badawczych i praktycznych pracach dotyczących analizy danych i odkrywania wiedzy. ˆ R jako język programowania dostarcza wbudowanych operacji ułatwiających przetwarzanie tabelarycznych zbiorów danych, mechanizmów graficznego opisu danych, bogatych bibliotek funkcji analitycznych, obejmujących szeroki zakres metod statystycznych i metod odkrywania wiedzy oraz - co niezwykle ważne - interaktywny interpreter poleceń i (dla niektórych platform) graficzny interfejs użytkownika. ˆ Wszystkie niezbędne informacje o języku R znajdziemy na stronach CRAN (The Comprehensive R Archive Network), gdzie dostępne są pakiety źródłowe, dokumentacja, oraz obszerne zasoby bibliotek.

4 Rysunek: Okno główne środowiska R

5 Pomoc w nauce R ˆ Godnym polecenia materiałem umożliwiającym przyswojenie podstawowych zagadnień jest darmowy kurs pt. Wprowadzenie do języka R dostępny na stronie a także źródło anglojęzyczne pt. An Introduction to R do ściągnięcia ze strony ˆ The R Language Definition - źródło: ˆ The R Language A Short Companion - źródło: ˆ R Reference Card - źródło:

6 Pomoc środowiska R

7 Statystyka opisowa za pomocą R-a Wyznaczanie miar rozkładu Bardzo prostą metodą w zakresie statystyki opisowej jest tworzenie opisu zbioru danych za pomocą tzw. emphmiar rozkładu cechy. Miary rozkładu można podzielić na kilka podstawowych kategorii: ˆ miary położenia, np. kwantyl, miary tendencji centralnej (np. średnia arytmetyczna, średnia geometryczna, średnia harmoniczna, średnia kwadratowa, mediana, moda), ˆ miary zróżnicowania, np. odchylenie standardowe, wariancja, rozstęp, rozstęp ćwiartkowy, średnie odchylenie bezwzględne, odchylenie ćwiartkowe, współczynnik zmienności, ˆ miary asymetrii, np. współczynnik skośności, współczynnik asymetrii, trzeci moment centralny, ˆ miary koncentracji, np. współczynnik Giniego, miara kurtozy [2].

8 Funkcja summary: Pakiet Hmisc i komenda library(hmisc)

9 Funkcja describe z pakietu psych otrzymujemy: nazwę zmiennej (kolumny, cechy), jej numer w całym zbiorze danych (var), liczba wartości w zbiorze (n) a także statystyki typu: średnia (mean), odchylenie standardowe (sd), mediana (median), elementy minimalny (min) i maksymalny (max), skośność (skew) oraz kurtoza (kurtosis).

10 Graficzna prezentacja wyników ˆ histogramy i wykresy częstości (ang. density plot)- przedstawiające rozkład empiryczny cechy, ˆ wykresy rozrzutu (ang. scatterplots) - pozwalające wykrywać pewne zależności (i ich typ) między wartościami ciągłymi obserwacji w pewnej mierzonej skali. Każdy punkt wykresu reprezentuje pojedynczą obserwację, ˆ wykresy pudełkowe (ang. boxplot) - prezentowane za pomocą pudełka, którego lewy bok jest wyznaczony przez pierwszy kwartyl, zaś prawy bok przez trzeci kwartyl. Szerokość pudełka odpowiada wartości rozstępu ćwiartkowego. Wewnątrz pudełka znajduje się pionowa linia, określająca wartość mediany. Rysunek uzupełniamy po prawej i lewej stronie odcinkami. Lewy koniec lewego odcinka wyznacza najmniejszą wartość w zbiorze, natomiast prawy koniec prawego odcinka to wartość największa.

11 Histogramy > dane<-c(3,4,5,6,7,7,7,8,8,8,9) > hist(dane,col="red",xlab="wartości",main="histogram")

12 Wykresy pudełkowe Wykresy pudełkowe spotykane są najczęściej w pakietach komputerowych wspomagających proces analizy i interpretacji danych statystycznych. Oczywiście: ˆ Lower whisker - wartość najmniejsza dla danej zmiennej. ˆ Lower quartile - punkt dokładnie na 25% zbioru obserwacji. ˆ Median - punkt rozgraniczający dokładnie 50% obserwacji. ˆ Upper quartile - Punkt, przed którym jest 75% obserwacji. ˆ Upper whisker - najwyższa wartość w zbiorze. ˆ Mean - wartość średnia w zbiorze obserwacji.

13 Wykres pudełkowy boxplot(dane,col="red",xlab="wartości",main="wykrespudełkowy")

14 Wykresy w R Ogromną zaletą środowiska R jest jego system graficzny i możliwości łatwej wizualizacji danych. Bardzo skrótowo (ale jednocześnie wystarczająco) generowanie wykresów zostało przedstawione w kursie dostępnym pod adresem: Generalizując powiemy, że należy wyróżnić dwa rodzaje funkcji graficznych w R: ˆ wyskopoziomowe funkcje rysują kompletne wykresy ( i usuwające poprzednie), ˆ niskopoziomowe funkcje dodające do wykresów nowe elementy typu legenda, punkty, linie, tekst.

15 Wykres rozrzutu - przykład 1

16 Wykres rozrzutu - przykład 2

17 Wykres mieszany - przykład 3

18

19 Regresja - metoda najmniejszych kwadratów

20 Model regresji liniowej

21 Obserwacje odstające Obserwacja odstająca (ang. outlier) jest obserwacją, która nie spełnia równości regresji czyli nie należy do modelu prostej regresji. Obserwacje odstające mogą znacząco wpłwać na postać prostej regresji: b 0 + b 1x dla której wartość sumy: n i=1 (yi ŷi)2 a więc i sumy n i=1 (yi (b0 + b1xi))2 ma być możliwie najmniejsza. Jeśli analizujemy tylko pojedyncze zmienne objaśniające, to identyfikacja obserwacji odstających jest dość prosta. Wystarczy generować wykresy rozrzutu bądź histogramy. Jeśli zaś chcemy szukać obserwacji odstających globalnie (nie dla pojedynczej zmiennej objaśniającej ale dla wielu) wówczas możemy analizować rezydua lub rezydua studentyzowane i wśród nich szukać wartości odstających.

22 Wyznaczenie obserwacji odstających

23 Wyznaczenie obserwacji odstających 1. Mając wektor wartości resztowych(rezyduów) e = (e 1, e 2,..., e n),gdzie wartość resztowa e i = y i ŷ i (e i = y i (b 0 x i + b 1 ))powiemy, że błąd standardowy rezyduum e i jest równy: = S 1 ( 1 n + (x i x) 2 n i=1 (x i x) ). 2 SE ei Wtedy studentyzowana wartość resztowa będzie odpowiadać wartości: r i = e i SE ei. 2. Sporządzając wykres wartości studentyzowanych rezyduów r i względem ich indeksu będziemy potrafili rozpoznawać te duże wartości, które przypuszczalnie będą odstającymi. Podsumowując powiemy, że nowa obserwacja będzie punktem odstającym jeśli będzie się cechować dużą wartością standaryzowanej reszty. W praktyce, obserwacje odstające to takie, których wartość bezwzględnych standaryzowanych reszt przekracza 2.

24 Wyznaczenie obserwacji odstających w R W środowisku R wykrycie obserwacji odstających możliwe jest na kilka sposobów. Jednym z nich jest użycie funkcji rstudent. Jak widać na poniższym kodzie, w analizowanym przez nas zbiorze występuje obserwacja odstająca. Jest to obserwacja o numerze 8 i wartości

25 Wyznaczenie obserwacji odstających w R Alternatywnie, możemy użyć funkcji outlier.test z biblioteki car.

26 Obserwacje wpływowe Obserwacja jest wpływowa (ang. influential) jeśli jej obecność wpływa na prostą regresji, w taki sposób, że zmienia się współczynnik kierunkowy tej prostej. Inaczej powiemy, że jeśli obserwacja jest wpływowa to inaczej wygląda prosta regresji w zależności od tego czy ta obserwacja została ujęta w zbiorze, czy też nie (gdyż została usunięta). W praktyce, jeśli obserwowana wartość leży w Q 1 (czyli ma wartość mniejszą niż 25 centyl), to mówimy, że ma ona mały wpływ na regresję. Obserwacje leżące między Q 1 a Q 3 kwartylem nazywamy wpływowymi. Wykrycie obserwacji wpływowych umożliwia pomiar odległości Cooka z tzw. modyfikowanymi rezyduami. Usuwamy obserwację potencjalnie wpływową i obliczamy różnicę. Obserwacja jest wpływowa jeśli ta różnica będzie wysoka. Odległość Cooka mierzy poziom wpływu obserwacji i jest obliczana jako: n j=1 (ŷ j y j(i) ˆ ) 2 ps 2 D i = = e2 i h i ps 2 (1 h i ) 2,gdzie ŷ j jest wartością przewidywaną dla j-tej obserwacji obliczoną w modelu z usuniętą obserwacją i-tą zaś y j(i) ˆ jest wartością przewidywaną dla j-tej obserwacji w modelu, w którym nie usunięto i-tej obserwacji (potencjalnie wpływowej).

27 Wyznaczenie obserwacji wpływowych w R Teraz jeśli chcemy poznać obserwacje wpływowe możemy użyć komendy: której efektem będzie wykres:

28 Do wykrycia obserwacji wpływowych możemy także użyć funkcji > influence.measures(lm(b a)), której efekt będzie następujący: Ostatnia kolumna wskazuje na obserwacje wpływowe zaznaczając przy nich symbol. Są to obserwacje 1 i 9.

29 Zbiór Cereals.data

30 Zbiór Cereals.data ˆ źródło: ˆ Zbiór zawiera dane 77 rodzajów płatków śniadaniowych,które opisane są 14 atrybutami warunkowymi i jednym atrybutem decyzyjnym rating mówiącym o wartości odżywczej płatków w oparciu o informacje typu: calories, sugars, fiber, sodium, vitamins czy weight (ora zinne).

31 Zbiór Cereals.data

32 Zbiór Cereals.data

33 Wyznaczenie obserwacji odstających w modelu z wieloma zmiennymi objaśniającymi Obserwacje odstające będziemy wykrywać przy użyciu znanego już pakietu car i funkcji outlier.test w ramach tego pakietu. Wykryliśmy jedną obserwację odstającą (płatki o nazwie Golden Crisp).

34

35 Obserwacje wpływowe w zbiorze Cereals Funkcja: influence.measures Za wpływowe uznamy 6 obserwacji: 100% Bran,All-Bran, All-Bran with Extra Fiber czy Frosted Mini-Wheats, Golden Crisp (które zresztą uznaliśmy za obserwację odstającą, outlier) oraz Post Nat. Raisin Bran.

36 Bardzo ważne dla wykrycia obserwacji odstających są tzw. studentyzowane reszty. Wykres dla nich możemy wykonac wywołując komendę: > qq.plot(model, main="qq Plot") Efektem będzie wykres z rozkładem obserwacji między I i III kwartylem, stąd nazwa wykresu międzykwartylny

37 Regresja liniowa dla zbioru Cereals

38 Predykcja dla zbioru Cereals Równanie regresji: gdy zmienną objaśnianą będzie zmienna rating (wartość odżywcza płatków) zaś objaśniającą sugars (poziom cukrów), będzie następującej postaci: rating = -2.4 * sugars Gdy poziom cukrów wynosi np 1 to wartość odżywcza płatków będzie wynosić 56.9 zaś gdy poziom cukrów będzie wynosił np 10 wówczas wartość odżywcza zmaleje do wartości 35.3.

39 Inne metody analizy danych ˆ analizy dyskryminacyjna: ˆ library(mass)i funkcja lda() ˆ analiza skupień: ˆ pam(), kmeans(), pvclust(), hclust(). ˆ drzewa klasyfikacyjne: ˆ rpart(), printcp() ˆ analiza składowych głównych: ˆ princomp(), factanal()

40 Analiza dyskryminacyjna

41 Analiza skupień - statystyki danych

42 Analiza skupień - klasyczny algorytm k-średnich

43 Drzewa klasyfikacyjne

44 Analiza składowych głównych

45 Analiza składowych głównych

46 Podsumowanie ˆ R jest wykorzystywany w badaniach naukowych i dydaktyce na najlepszych uczelniach na świecie, w dziedzinach biologii, socjologii, psychologii, ekonomii. ˆ R to środowisko do obliczeń statystycznych, a jednocześnie język programowania. ˆ R może działać na systemach Windows, Linux i MacOS.

47 Bibliografia Smith L.I.,A tutorial on Principal Components Analysis, Psych-465-Spring-2003/PCA-tutorial.pdf, Redakcja naukowa: Walesiak M. and Gatnar E., Statystyczna analiza danych z wykorzystaniem programu R, PWN, 2009, Warszawa, Polska Larose Daniel T., Metody i modele eksploracji danych. PWN, Warszawa, Polska, Ćwik J. and Mielniczuk J., Statystyczne systemy uczące się. Ćwiczenia w oparciu o pakiet R. Oficyna Wydawnicza Politechniki Warszawskiej, Warszawa, Polska, Koronacki J. and Mielniczuk J., Statystyka dla studentów kierunków technicznych i przyrodniczych. Wydawnictwa Naukowo-Techniczne, Warszawa, Polska, Koronacki J. and Ćwik J., Statystyczne systemy uczące się. EXIT. Warszawa, Polska, 2008.

Agnieszka Nowak Brzezińska Wykład 2 z 5

Agnieszka Nowak Brzezińska Wykład 2 z 5 Agnieszka Nowak Brzezińska Wykład 2 z 5 metoda typ Zmienna niezależna Regresja liniowa Regresja Wszystkie ilościowe Zakłada liniową zależność, prosta w implementacji Analiza dyskryminacyjna klasyfikacja

Bardziej szczegółowo

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć: Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).

Bardziej szczegółowo

Statystyczne metody analizy danych

Statystyczne metody analizy danych Statystyczne metody analizy danych Statystyka opisowa Wykład I-III Agnieszka Nowak - Brzezioska Podstawowe pojęcia STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów)

Bardziej szczegółowo

Wprowadzenie do metod probabilistycznych wspomagane komputerowo MAPLE. Jerzy Ombach. Państwowa Wyższa Szkoła Zawodowa

Wprowadzenie do metod probabilistycznych wspomagane komputerowo MAPLE. Jerzy Ombach. Państwowa Wyższa Szkoła Zawodowa Wprowadzenie do metod probabilistycznych wspomagane komputerowo MAPLE Jerzy Ombach Państwowa Wyższa Szkoła Zawodowa Nowy Sącz 2006 Rada Naukowa Zdzisława Zacłona, Leszek Rudnicki, Jarosław Frączek, Zdzisław

Bardziej szczegółowo

Praktyczne wykorzystanie IBM SPSS Statistics (wersja 21 PL)

Praktyczne wykorzystanie IBM SPSS Statistics (wersja 21 PL) Katolicki Uniwersytet Lubelski Jana Pawła II Dr Krzysztof Jurek Praktyczne wykorzystanie IBM SPSS Statistics (wersja 21 PL) Kurs dla użytkowników początkujących i średniozaawansowanych Lublin SPIS TREŚCI

Bardziej szczegółowo

2010 Minitab, Inc. Wszelkie prawa zastrzeżone. Wersja 16.1.0 Minitab, Minitab logo, Quality Companion by Minitab i Quality Trainer by Minitab są

2010 Minitab, Inc. Wszelkie prawa zastrzeżone. Wersja 16.1.0 Minitab, Minitab logo, Quality Companion by Minitab i Quality Trainer by Minitab są 2010 Minitab, Inc. Wszelkie prawa zastrzeżone. Wersja 16.1.0 Minitab, Minitab logo, Quality Companion by Minitab i Quality Trainer by Minitab są zastrzeżonymi znakami towarowymi firmy Minitab, Inc. w Stanach

Bardziej szczegółowo

Nieparametryczne estymatory jądrowe regresji w zastosowaniach ekonomicznych

Nieparametryczne estymatory jądrowe regresji w zastosowaniach ekonomicznych Uniwersytet Ekonomiczny w Krakowie Praca magisterska Nieparametryczne estymatory jądrowe regresji w zastosowaniach ekonomicznych Anna Węgrzynkiewicz Kierunek: Informatyka i Ekonometria Specjalność: Modelowanie

Bardziej szczegółowo

IBM SPSS Statistics Base 22

IBM SPSS Statistics Base 22 IBM SPSS Statistics Base 22 Uwaga Przed skorzystaniem z niniejszych informacji oraz produktu, którego one dotyczą, należy zapoznać się z informacjami zamieszczonymi w sekcji Informacje na stronie 185.

Bardziej szczegółowo

Metody statystyki medycznej stosowane w badaniach klinicznych

Metody statystyki medycznej stosowane w badaniach klinicznych Metody statystyki medycznej stosowane w badaniach klinicznych Statistics for clinical research & post-marketing surveillance część I Program szkolenia część I Wprowadzenie Podstawowe pojęcia statystyczne

Bardziej szczegółowo

Analiza i eksploracja danych biznesowych

Analiza i eksploracja danych biznesowych Analiza i eksploracja danych biznesowych Business Intelligence systemy wspomagania decyzji Dr inż. Marcin Blachnik Plan zajęć 1. Dane czym są i jak je reprezentować 2. Metody analizy statystycznej (małe

Bardziej szczegółowo

Wykorzystanie projektu R w zadaniach eksploracji danych

Wykorzystanie projektu R w zadaniach eksploracji danych Wykorzystanie projektu R w zadaniach eksploracji danych Artur Gramacki, Jarosław Gramacki Uniwersytet Zielonogórski Instytut Informatyki i Elektroniki ul. Podgórna 50, 65-246, Zielona Góra e-mail: a.gramacki@iie.uz.zgora.pl,

Bardziej szczegółowo

Wydział Badań i Ewaluacji CKE. Warszawa, listopad 2007. Wydanie 2., uzupełnione

Wydział Badań i Ewaluacji CKE. Warszawa, listopad 2007. Wydanie 2., uzupełnione ANALIZA I INTERPRETACJA WYNIKÓW OCENIANIA I EGZAMINOWANIA Wydział Badań i Ewaluacji CKE Warszawa, listopad 7 Wydanie., uzupełnione ANALIZA I INTERPRETACJA WYNIKÓW OCENIANIA I EGZAMINOWANIA Opracowanie:

Bardziej szczegółowo

Drzewa decyzyjne z użyciem pakietu R. Zastosowanie w badaniach występowania nawrotu choroby u pacjentek z nowotworem piersi.

Drzewa decyzyjne z użyciem pakietu R. Zastosowanie w badaniach występowania nawrotu choroby u pacjentek z nowotworem piersi. Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki Marta Tyce Nr albumu: 277952 Drzewa decyzyjne z użyciem pakietu R. Zastosowa w badaniach występowania nawrotu choroby u pacjentek z nowotworem

Bardziej szczegółowo

Regresja prosta. Sylwia Bedyńska Szkoła Wyższa Psychologii Społecznej w Warszawie Monika Książek Szkoła Główna Handlowa w Warszawie

Regresja prosta. Sylwia Bedyńska Szkoła Wyższa Psychologii Społecznej w Warszawie Monika Książek Szkoła Główna Handlowa w Warszawie ROZDZIAŁ 1 Regresja prosta 15 Sylwia Bedyńska Szkoła Wyższa Psychologii Społecznej w Warszawie Monika Książek Szkoła Główna Handlowa w Warszawie Regresja prosta część i modele regresji rozdział 1 W tym

Bardziej szczegółowo

Przewodnik po pakiecie

Przewodnik po pakiecie PRZEMYSŁAW BIECEK Przewodnik po pakiecie R Wydanie drugie, rozszerzone Oficyna Wydawnicza GiS Wrocław, 2011 Wnioski, skargi i zażalenia należy kierować do Przemysław Biecek e-mail: przemyslaw.biecek@gmail.com

Bardziej szczegółowo

Metody analizy i prezentacji danych statystycznych Materiały do wykładu

Metody analizy i prezentacji danych statystycznych Materiały do wykładu Metody analizy i prezentacji danych statystycznych Materiały do wykładu Dr Adam Kucharski Spis treści 1 Podstawowe pojęcia statystyczne 2 1.1 Populacja i zbiorowość................................. 2 1.2

Bardziej szczegółowo

Statystyka matematyczna w Excelu dla szkó³. Æwiczenia praktyczne

Statystyka matematyczna w Excelu dla szkó³. Æwiczenia praktyczne IDZ DO PRZYK ADOWY ROZDZIA SPIS TRE CI KATALOG KSI EK KATALOG ONLINE ZAMÓW DRUKOWANY KATALOG Statystyka matematyczna w Excelu dla szkó³. Æwiczenia praktyczne Autor: Andrzej Obecny ISBN: 83-7197-711-5 Format:

Bardziej szczegółowo

Sameer Hanna-Juma M.D., Ph.D.

Sameer Hanna-Juma M.D., Ph.D. Sameer Hanna-Juma M.D., Ph.D. Sameer Hanna-Jumma, MB CHB (Bachelor of Medicine, Bachelor of Surgery), MSc (Medical Sciences), FRCA (Fellowship of the Royal College of Anaesthetists), FCAI (Fellowship of

Bardziej szczegółowo

Brunon R. Górecki. Podstawowy kurs nowoczesnej ekonometrii

Brunon R. Górecki. Podstawowy kurs nowoczesnej ekonometrii Brunon R. Górecki Podstawowy kurs nowoczesnej ekonometrii SPIS TREŚCI Wstęp CZĘŚĆ I. KLASYCZNY MODEL REGRESJI LINIOWEJ.Wprowadzenie.. Czym jest ekonometria?.. Pojęcie modelu ekonometrycznego.3. Dane statystyczne.4.

Bardziej szczegółowo

Przewodnik po pakiecie

Przewodnik po pakiecie Przemysław Biecek Przewodnik po pakiecie Oficyna Wydawnicza GiS Wnioski, skargi i zażalenia należy kierować na adres dr hab. inż. Przemysław Biecek Interdyscyplinarne Centrum Modelowania Matematycznego

Bardziej szczegółowo

danych kursy analizy i n f o r m a t o r c e n t r u m s z k o l e n i o w e g o S P S S P o l s k a

danych kursy analizy i n f o r m a t o r c e n t r u m s z k o l e n i o w e g o S P S S P o l s k a i n f o r m a t o r danych c e n t r u m s z k o l e n i o w e g o S P S S P o l s k a kursy analizy Cieszę się, iż mogę przekazać w Państwa ręce kolejny Informator Centrum Szkoleniowego SPSS Polska.

Bardziej szczegółowo

Statystyka matematyczna

Statystyka matematyczna Projekt pn. Wzmocnienie potencjału dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczych realizowany w ramach Poddziałania 4.1.1 Programu Operacyjnego Kapitał Ludzki Joanna Karłowska-Pik

Bardziej szczegółowo

SEGMENTACJA UŻYTKOWNIKÓW SERWISU WWW Z UŻYCIEM

SEGMENTACJA UŻYTKOWNIKÓW SERWISU WWW Z UŻYCIEM SEGMENTACJA UŻYTKOWNIKÓW SERWISU WWW Z UŻYCIEM METOD STATYSTYCZNYCH I SIECI NEURONOWYCH Grzegorz Migut StatSoft Polska Sp. z o.o. Wstęp Poznanie klientów jest kluczowym elementem wpływającym na prowadzenie

Bardziej szczegółowo

STATISTICA W ADMINISTRACJI PUBLICZNEJ

STATISTICA W ADMINISTRACJI PUBLICZNEJ STATISTICA W ADMINISTRACJI PUBLICZNEJ Piotr Wójtowicz, StatSoft Polska Sp. z o.o. Administracja publiczna to jeden z obszarów, gdzie odpowiednio zastosowane metody analizy danych mogą przynieść znaczne

Bardziej szczegółowo

Przewodnik po pakiecie

Przewodnik po pakiecie PRZEMYSŁAW BIECEK Przewodnik po pakiecie 1.6 R dla żółtodziobów dla zawodowców dla pasjonatów użytkownika problemu użytkownika problemu 1.4 1.2 1.0 0.8 y = 1 x 6 y = 1 x 6 0.6 0.4 0.2 y = 1 x 2 y = 1 x

Bardziej szczegółowo

TWORZENIE I STOSOWANIE MODELU PROGNOSTYCZNEGO Z WYKORZYSTANIEM STATISTICA ENTERPRISE

TWORZENIE I STOSOWANIE MODELU PROGNOSTYCZNEGO Z WYKORZYSTANIEM STATISTICA ENTERPRISE TWORZENIE I STOSOWANIE MODELU PROGNOSTYCZNEGO Z WYKORZYSTANIEM STATISTICA ENTERPRISE Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Badanie przebiegu rozmaitych wielkości w czasie w celu znalezienia

Bardziej szczegółowo

BADANIE ZGODNOŚCI ROZKŁADU STÓP ZWROTU NA GPW W WARSZAWIE Z ROZKŁADAMI GAUSSA I CAUCHY EGO

BADANIE ZGODNOŚCI ROZKŁADU STÓP ZWROTU NA GPW W WARSZAWIE Z ROZKŁADAMI GAUSSA I CAUCHY EGO AKADEMIA EKONOMICZNA W POZNANIU Krzysztof Cichy BADANIE ZGODNOŚCI ROZKŁADU STÓP ZWROTU NA GPW W WARSZAWIE Z ROZKŁADAMI GAUSSA I CAUCHY EGO PRACA MAGISTERSKA Wydział Zarządzania Kierunek: Zarządzanie i

Bardziej szczegółowo

Przewodnik. Rozdział. Dodatek

Przewodnik. Rozdział. Dodatek Przewodnik Rozdział 1: STATISTICA ogólny opis 7 2: Przykłady 13 Analizy 15 Zarządzanie danymi 73 Wersje korporacyjne 93 3: Środowisko pracy 123 4: Zarządzanie wynikami analiz 143 5: Dokumenty STATISTICA

Bardziej szczegółowo

Przegląd darmowego oprogramowania do analizy dużych zbiorów danych

Przegląd darmowego oprogramowania do analizy dużych zbiorów danych Przegląd darmowego oprogramowania do analizy dużych zbiorów danych Tomasz Jach, Tomasz Xięski Uniwersytet Śląski, Instytut Informatyki, ul. Będzińska 39, 41-200 Sosnowiec {tomasz.jach tomasz.xieski}@us.edu.pl

Bardziej szczegółowo

Opracowanie statystyczne wyników badań w pracach magisterskich i licencjackich

Opracowanie statystyczne wyników badań w pracach magisterskich i licencjackich Edukacja Humanistyczna nr 2 (25), 2011 Szczecin 2011 Agnieszka Koźlarek Wyższa Szkoła Integracji Europejskiej Szczecin Opracowanie statystyczne wyników badań w pracach magisterskich i licencjackich Prawidłowy

Bardziej szczegółowo