Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 1) Dariusz Gozdowski

Podobne dokumenty
STATYSTYKA I DOŚWIADCZALNICTWO

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 1 i 2

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

WYKŁAD 2. Zdarzenia losowe i prawdopodobieństwo Zmienna losowa i jej rozkłady

Statystyka matematyczna dla leśników

STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa

Zmienna losowa. Rozkład skokowy

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Temat: Zmienna losowa. Rozkład skokowy. Rozkład ciągły. Kody kolorów: Ŝółty nowe pojęcie pomarańczowy uwaga. Anna Rajfura, Matematyka

Estymacja parametrów rozkładu cechy

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

STATYSTYKA MATEMATYCZNA

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

1 Podstawy rachunku prawdopodobieństwa

PRAWDOPODOBIEŃSTWO. ZMIENNA LOSOWA. TYPY ROZKŁADÓW

Rachunek prawdopodobieństwa i statystyka

1.1 Wstęp Literatura... 1

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 2 i 3 Zmienna losowa

Estymacja punktowa i przedziałowa

Rozkłady zmiennych losowych

Biostatystyka, # 3 /Weterynaria I/

Metody Statystyczne. Metody Statystyczne.

Spis treści 3 SPIS TREŚCI

Elementy Rachunek prawdopodobieństwa

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Rozkłady prawdopodobieństwa

Rozkłady prawdopodobieństwa zmiennych losowych

Statystyka w analizie i planowaniu eksperymentu

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Analiza niepewności pomiarów

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Statystyka w analizie i planowaniu eksperymentu

LISTA 4. 7.Przy sporządzaniu skali magnetometru dokonano 10 niezależnych pomiarów

Komputerowa analiza danych doświadczalnych

Komputerowa analiza danych doświadczalnych

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA MATEMATYCZNA

Wykład 3 Hipotezy statystyczne

Z poprzedniego wykładu

WYKŁAD 5 TEORIA ESTYMACJI II

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

P (A B) = P (A), P (B) = P (A), skąd P (A B) = P (A) P (B). P (A)

STATYSTYKA MATEMATYCZNA dla ZPM I dr inż Krzysztof Bryś wyk lad 1,2 KLASYCZNY RACHUNEK PRAWDOPODOBIEŃSTWA

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

II WYKŁAD STATYSTYKA. 12/03/2014 B8 sala 0.10B Godz. 15:15

1 Estymacja przedziałowa

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Zestaw 2: Zmienne losowe. 0, x < 1, 2, 2 x, 1 1 x, 1 x, F 9 (x) =

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Matematyka stosowana i metody numeryczne

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Statystyka matematyczna dla leśników

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Statystyka w analizie i planowaniu eksperymentu

STYSTYSTYKA dla ZOM II dr inż Krzysztof Bryś Wykad 1

Statystyka matematyczna i ekonometria

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Wnioskowanie statystyczne. Statystyka w 5

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

WSTĘP. Tematy: Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz.

Estymacja przedziałowa. Przedział ufności

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Przestrzeń probabilistyczna

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Rozkłady statystyk z próby

zdarzenie losowe - zdarzenie którego przebiegu czy wyniku nie da się przewidzieć na pewno.

Matematyka z el. statystyki, # 3 /Geodezja i kartografia II/

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

Komputerowa Analiza Danych Doświadczalnych

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW

Rachunek Prawdopodobieństwa i Statystyka

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Ćwiczenia 3 ROZKŁAD ZMIENNEJ LOSOWEJ JEDNOWYMIAROWEJ

Wykład 3 Jednowymiarowe zmienne losowe

Test dwustronny: H 0 : p= 1 2

Statystyka w pracy badawczej nauczyciela

Statystyka. Magdalena Jakubek. kwiecień 2017

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Jednowymiarowa zmienna losowa

Testowanie hipotez statystycznych.

Transkrypt:

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 1) Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW

STATYSTYKA to nauka, której przedmiotem zainteresowania są metody pozyskiwania i prezentacji, a przede wszystkim analizy danych opisujących zjawiska masowe. Metody statystyczne oparte są na rachunku prawdopodobieństwa. Różnica między rachunkiem prawdopodobieństwa a statystyką

There are three kinds of lies: lies, damned lies, and statistics Benjamin Disraeli

ZDARZENIE ELEMENTARNE to możliwy wynik doświadczenia losowego. Wszystkie takie możliwe wyniki tworzą zbiór zdarzeń elementarnych. Na przykład zbiór zdarzeń elementarnych przy pojedynczym rzucie monetą składa się z dwóch elementów tj. może wypaść orzeł, bądź reszka.

POPULACJA STATYSTYCZNA (inaczej populacja generalna) to zbiór elementów, podlegających badaniu statystycznemu. Elementy populacji są do siebie podobne pod względem badanej cechy, ale nie są identyczne. Np. osoby zamieszkujące w pewnym regionie, rośliny pewnej odmiany pszenicy, kolonie grzybów pleśni, produkty jednego rodzaju produkowane przez pewien zakład itp. Nie wszystkie populacje muszą istnieć w rzeczywistości, niektóre z nich mają charakter wyłącznie hipotetyczny. (np. zakładamy to przy przeprowadzaniu doświadczenia planowanego)

Elementy populacji statystycznej nazywamy jednostkami statystycznymi, zaś badana cecha to cecha statystyczna. Ze względu na liczebność zbioru, populacje można podzielić na: -populacje skończone - np. powiaty w woj. mazowieckim (określona liczba w danym czasie nie ulegająca zmianie) - populacje nieskończone w rzeczywistości raczej nie istnieją, ale często zakłada się, przy bardzo dużej liczebności np. rośliny pewnego gatunku, że reprezentują one populację nieskończoną, gdyż teoretycznie można zwiększać ciągle ich liczebność

ZMIENNA LOSOWA, to funkcja, która zdarzeniom losowym przypisuje liczby. Na przykład, losując z pewnej populacji jednego osobnika przypisujemy mu jego wagę, lub też rzucając monetą przyjmujemy, że wyrzucenie reszki będzie oznaczało wartość 0 a wyrzucenie orła wartość 1. Zmienne losowe dzielimy na: - Skokowe (dyskretne) -Ciągłe 1 0

ZMIENNE LOSOWE -skokowe (dyskretne), które przyjmują skończoną liczbę wartości, zazwyczaj wartości są liczbami całkowitymi z pewnego przedziału (np. liczba oczek na kostce sześciennej do gry, liczba osób w rodzinie, liczba kwiatów na roślinie itp.) - ciągłe, czyli takie które przyjmują niekończenie wiele wartości, np. wszystkie liczby rzeczywiste z pewnego przedziału (przykłady: wzrost człowieka, zawartość cukru w jabłkach, temperatura powietrza). Często takie zmienne podajemy z pewną dokładnością, wynikającą z ograniczeń przyrządów pomiarowych (np. termometru, wagi itp.) ale należy miećświadomość, że dysponując dokładniejszym przyrządem pomiarowym możemy ustalić wartość z coraz większą dokładnością.

PRAWDOPODOBIEŃSTWEM (wg Laplace) zajścia zdarzenia A nazywamy iloraz liczby zdarzeń sprzyjających zdarzeniu A do liczby wszystkich możliwych przypadków Ώ, zakładając, że wszystkie przypadki wzajemnie się wykluczają i są jednakowo prawdopodobne. Na przykład przy pojedynczym rzucie kostką sześcienną prawdopodobieństwo wyrzucenia dokładnie 3 oczek wynosi 1/6 gdyż wszystkich możliwych zdarzeń jest 6 a tylko jedno spełnia ten warunek. Prawdopodobieństwo przyjmuje wartości z przedziału [0;1]. Wartość prawdopodobieństwa bliższa 1 oznacza zdarzenie bardziej prawdopodobne, czyli zachodzące częściej, natomiast wartość prawdopodobieństwa bliższa 0 oznacza zdarzenie, które jest mało prawdopodobne, czyli zachodzi rzadziej.

ROZKŁAD PRAWDOPODOBIEŃSTWA ZMIENNEJ LOSOWEJ zbiór wartości zmiennej losowej oraz prawdopodobieństwa, z jakimi są te wartości przyjmowane. np. dla pojedynczego rzutu kostką rozkład prawdopodobieństwa można przedstawić następująco: x i 1 2 3 4 5 6 p i 1/6 1/6 1/6 1/6 1/6 1/6 Jedynie dla rozkładów zmiennych skokowych możliwe jest przedstawienie rozkładu prawdopodobieństwa w takiej postaci jak powyżej. Niemożliwe jest to w przypadku rozkładów ciągłych, gdyż nie możemy określić prawdopodobieństwa, że zmienna przyjmie określoną wartość. Możemy natomiast określić prawdopodobieństwo, że zmienna przyjmie wartość z określonego przedziału.

Typowe rozkłady zmiennych losowych skokowych 1) Rozkład dwupunktowy 2) Rozkład dwumianowy (Bernoulliego) 3) Rozkład Poissona

1) Rozkład dwupunktowy Z rozkładem dwupunktowym mamy do czynienia wówczas, gdy w wyniku doświadczenia możemy uzyskać tylko jedną z dwóch wartości zmiennej losowej: x 1 lub x 2 z prawdopodobieństwami odpowiednio p oraz 1-p. W szczególnym przypadku, gdy x 1 =0 oraz x 2 =1 rozkład ten nazywany jest rozkładem zero-jedynkowym. Rozkład dwupunktowy mają wszystkie zjawiska losowe, w których są tylko dwie możliwości np. wystąpienie opadów w pewnym dniu, odpowiedź ankietowanej osoby na pytanie czy pali papierosy, wykiełkowanie nasionka (we wszystkich tych zjawiskach są tylko dwie wykluczające się możliwości) lub

2) Rozkład dwumianowy (Bernoulliego) Rozkład dwumianowy występuje wówczas, gdy przeprowadza się n jednakowych doświadczeń, z których każde może zakończyć się jednym z dwóch wyników: sukcesem z prawdopodobieństwem p lub porażką z prawdopodobieństwem 1-p. Zmienną losową X w tym eksperymencie jest liczba sukcesów w n próbach. Przykłady rozkładu dwumianowego mogą być podobne jak powyżej, tylko w przypadku większej liczby powtarzanych zdarzeń np. jeśli pytamy 10 osób czy pala papierosy, to liczba osób które odpowiedzą twierdząco jest zmienną mająca rozkład dwumianowy. Rozkład prawdopodobieństwa w rozkładzie dwumianowym jest określony wzorem: n k n k P(X = k) = p ( p) k 1 gdzie n = k n! k!( n k)! k-liczba sukcesów; n liczba prób; p- prawdopodobieństwo sukcesu

3) Rozkład Poissona Jest rozkładem zmiennej losowej skokowej, z którym mamy do czynienia w przypadku określania prawdopodobieństwa zajścia zdarzeń stosunkowo rzadkich i niezależnych od siebie, takich jak np. liczba usterek w produkowanej partii materiału, liczba osób nieobecnych na zajęciach w pewnym dniu. Rozkład Poissona jest przybliżeniem rozkładu Bernoulliego dla dużychpróbi przymałym prawdopodobieństwie zajścia zdarzenia ( sukcesu ). P(X k λ = k) = e k! λ e - podstawa logarytmów naturalnych (e=2,718 ) λ - stała, która jest wartością oczekiwaną i równocześnie wariancją rozkładu,

Typowe rozkłady zmiennych losowych ciągłych 1) Rozkład jednostajny 2) Rozkład normalny

1) Rozkład jednostajny Jest to najprostszy z rozkładów zmiennej losowej ciągłej. Mamy z nim do czynienia wtedy, gdy prawdopodobieństwo zajścia zdarzenia jest stałe w pewnym przedziale [a, b]. Przykładem zmiennej mającej rozkład jednostajny jest np. czas oczekiwania na przystanku na autobus przy założeniu, że autobus jeździ dokładnie co np. 20 min. a my wychodzimy nie znając rozkładu jazdy tego autobusu (oczywiście sytuacja jest zupełnie teoretyczna, gdyż zakładamy, że autobus nigdy nie przyjeżdża wcześniej ani się nie spóźnia). Czas oczekiwania na autobus jest w takim wypadku między 0 a 20 min.

2) Rozkład normalny Zwany także rozkładem Gaussa-Laplace'a jest najczęściej spotykanym w naturze rozkładem zmiennej losowej ciągłej. Ciągła zmienna losowa X ma rozkład normalny o wartości oczekiwanej µ (często zamiast µ używamy oznaczenia literą m) i odchyleniu standardowym σ co oznaczamy X~N(µ,σ 2 ) lub X~N(µ,σ). Funkcja gęstości prawdopodobieństwa rozkładu normalnego standardowego (o średniej równej 0 i odchyleniu standardowym równym 1) oraz wartości prawdopodobieństwa dla wartości zmiennej.

Standaryzacja zmiennych jest to przekształcenie (transformacja) wartości zmiennej wg następującego wzoru: Z = X σ m gdzie, m- średnia, σ- odchylenie standardowe, X wartość zmiennej przed standaryzacją, Z wartość zmiennej po standaryzacji zmienna po standaryzacji ma rozkład normalny Z ~ N(0, 1), czyli o średniej równej 0 i odchyleniu standardowym równym 1. Standaryzację stosuje się w celu wyrażenia zmiennych w tej samej skali np. w analizie skupień.

Grupowanie danych szereg rozdzielczy i histogram. Wartości zmiennej można uporządkować w ten sposób, że ustalamy liczebność obserwacji w poszczególnych przedziałach wartości. Przedstawienie liczebności w poszczególnych przedziałach nazywany szeregiem rozdzielczym jeśli przedstawiamy to w formie tabeli, natomiast jeśli przedstawimy to w formie wykresu nazywamy to histogramem. Wartości cechy (np. wiek) Liczebność Częstość 10 8 0-10 5 0,25 6 10-20 8 0,40 4 20-30 5 0,25 2 30-40 40-50 1 1 0,05 0,05 0 0-10 10-20 20-30 30-40 40-50

Estymacja punktowa i przedziałowa w rozkładzie normalnym Oszacowania parametrów punktowych rozkładów ciągłych określane na podstawie próby (estymatory punktowe) Parametry rozkładów określane na podstawie próby, czyli na wybranych jednostkach z populacji nazywamy estymatorami. Najpowszechniej wykorzystywanymi estymatorami są: Średnia arytmetyczna n 1 X = Xi n i= 1 = x 1 + x 2 +... + x n n s Wariancja 2 1 = n 1 n i= 1 (xi x ) Wariancja mówi o zmienności wartości w próbie, czyli ich odchyleniach od średniej. Ze względu, że przy obliczaniu wartości wariancji odchylenia od średniej podnoszone są do kwadratu, to często zamiast wariancji posługujemy się jej pierwiastkiem, czyli odchyleniem standardowym. 2 Współczynnik zmienności s CV = 100% x s = Odchylenie standardowe s 2 1 = n 1 n i= 1 (xi x ) 2

Parametry przedziałowe rozkładów ciągłych określane na podstawie próby (przedziały ufności) Przedział ufności dla średniej s X t( α ;n 1),X + t( α ;n 1) n s n t (α; n 1): wartość krytyczna rozkładu t - Studenta n-1lub v - stopnie swobody α - poziom istotności (zazwyczaj przyjmujemy α=0,05) Poziom ufności: 1 α ustalone z góry prawdopodobieństwo z jakim ten przedział pokrywa nieznaną wartość parametru np. w tym przypadku średnią