STATYSTYKA I DOŚWIADCZALNICTWO Wykład 1 i 2



Podobne dokumenty
STATYSTYKA I DOŚWIADCZALNICTWO

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 1) Dariusz Gozdowski

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Próba własności i parametry

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

WYKŁAD 2. Zdarzenia losowe i prawdopodobieństwo Zmienna losowa i jej rozkłady

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

W1. Wprowadzenie. Statystyka opisowa

Zagadnienia: wprowadzenie podstawowe pojęcia. Doświadczalnictwo. Anna Rajfura

1 Podstawy rachunku prawdopodobieństwa

Statystyczne metody analizy danych

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Statystyka matematyczna dla leśników

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

METODY BADAŃ NA ZWIERZĘTACH ze STATYSTYKĄ wykład 3-4. Parametry i wybrane rozkłady zmiennych losowych

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Rozkłady zmiennych losowych

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

II WYKŁAD STATYSTYKA. 12/03/2014 B8 sala 0.10B Godz. 15:15

Biostatystyka, # 3 /Weterynaria I/

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Zmienna losowa. Rozkład skokowy

zdarzenie losowe - zdarzenie którego przebiegu czy wyniku nie da się przewidzieć na pewno.

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Statystyka w pracy badawczej nauczyciela

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Pozyskiwanie wiedzy z danych

Metody Statystyczne. Metody Statystyczne.

(C. Gauss, P. Laplace, Bernoulli, R. Fisher, J. Spława-Neyman) Wikipedia 2008

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

Miary statystyczne w badaniach pedagogicznych

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Statystyka. Opisowa analiza zjawisk masowych

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Matematyka stosowana i metody numeryczne

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Parametry statystyczne

Wykład 5: Statystyki opisowe (część 2)

Statystyka opisowa. Robert Pietrzykowski.

Elementy Rachunek prawdopodobieństwa

Komputerowa analiza danych doświadczalnych

Rozkłady statystyk z próby

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Z poprzedniego wykładu

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Rachunek Prawdopodobieństwa i Statystyka

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Statystyka Matematyczna Anna Janicka

Statystyka matematyczna

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 2 i 3 Zmienna losowa

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Wybrane rozkłady zmiennych losowych. Statystyka

Ćwiczenia 3 ROZKŁAD ZMIENNEJ LOSOWEJ JEDNOWYMIAROWEJ

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Zmienne losowe. Statystyka w 3

Wybrane rozkłady zmiennych losowych. Statystyka

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Rachunek prawdopodobieństwa i statystyka

Inteligentna analiza danych

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Statystyka Opisowa WK Andrzej Pawlak. Intended Audience: PWR

Rozkłady prawdopodobieństwa zmiennych losowych

STATYSTYKA MATEMATYCZNA

Rachunek prawdopodobieństwa i statystyka

Zadania ze statystyki, cz.6

Rozdział 1. Zmienne losowe, ich rozkłady i charakterystyki. 1.1 Definicja zmiennej losowej

PRAWDOPODOBIEŃSTWO. ZMIENNA LOSOWA. TYPY ROZKŁADÓW

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Sieci Mobilne i Bezprzewodowe laboratorium 1

Rozkłady prawdopodobieństwa

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Transkrypt:

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 1 i 2 Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW

Słowo statystyka pochodzi od łacińskiego słowa status, które oznacza stan rzeczy. Pierwotne znaczenie słowa statystyka wiązało się ze zbieraniem informacji związanych z demografią i gospodarką. Termin statystyka jako nauka pojawił się znacznie później. Dynamiczny rozwój statystyki matematycznej nastąpił od przełomu XIX i XX wieku. Związane jest to z rosnącą rolą eksperymentu (doświadczenia), jako źródła wiedzy człowieka.

Doświadczalnictwo planowanie doświadczeń z uwzględnieniem oraz analiza danych doświadczalnych z użyciem metod statystycznych Doświadczalnictwo rolnicze w zorganizowanej formie rozwinęło się w połowie XIX wieku. Pierwsza stacja doświadczalna powstała w Rothamsted w 1843 r., natomiast w Polsce podobne doświadczenia zostały zakładane w końcu XIX wieku.

STATYSTYKA to nauka, której przedmiotem zainteresowania są metody pozyskiwania i prezentacji, a przede wszystkim analizy danych opisujących zjawiska masowe. Metody statystyczne oparte są na rachunku prawdopodobieństwa. Różnica między rachunkiem prawdopodobieństwa a statystyką

There are three kinds of lies: lies, damned lies, and statistics Benjamin Disraeli (1804-1881) m.in. premier Wielkiej Brytanii

ZDARZENIE ELEMENTARNE to możliwy wynik doświadczenia losowego. Wszystkie takie możliwe wyniki tworzą zbiór zdarzeń elementarnych. Na przykład zbiór zdarzeń elementarnych przy pojedynczym rzucie monetą składa się z dwóch elementów tj. może wypaść orzeł, bądź reszka.

POPULACJA STATYSTYCZNA (inaczej populacja generalna) to zbiór elementów, podlegających badaniu statystycznemu. Elementy populacji są do siebie podobne pod względem badanej cechy, ale nie są identyczne. Np. osoby zamieszkujące w pewnym regionie, rośliny pewnej odmiany pszenicy, kolonie grzybów pleśni, produkty jednego rodzaju produkowane przez pewien zakład itp. Nie wszystkie populacje muszą istnieć w rzeczywistości, niektóre z nich mają charakter wyłącznie hipotetyczny. (np. zakładamy to przy przeprowadzaniu doświadczenia planowanego)

Elementy populacji statystycznej nazywamy jednostkami statystycznymi, zaś badana cecha to cecha statystyczna. Ze względu na liczebność zbioru, populacje można podzielić na: -populacje skończone - np. powiaty w woj. mazowieckim (określona liczba w danym czasie nie ulegająca zmianie) - populacje nieskończone w rzeczywistości raczej nie istnieją, ale często zakłada się, przy bardzo dużej liczebności np. rośliny pewnego gatunku, że reprezentują one populację nieskończoną, gdyż teoretycznie można zwiększać ciągle ich liczebność

Badanie populacji Badanie wyczerpujące (pełne) - badaniu poddana jest cała populacja. Badanie niewyczerpujące (częściowe) - badaniu poddana jest tylko część populacji (wybrane jednostki). Populacja próbna, próba - ta część populacji generalnej, która bezpośrednio podlega badaniu. Próbę nazywamy reprezentatywną, jeśli stanowi ona taką część populacji, która zachowuje wszelkie właściwości struktury całej populacji. Dla zapewnienia reprezentatywności próby konieczne jest spełnienie dwóch warunków: losowości (sposób tworzenia próby powinien zapewnić każdej jednostce populacji jednakową szansę dostania się do tej próby; niezależności (sposób dodawania następnej jednostki do próby powinien być niezaleŝny od pobranych juŝ jednostek).

ZMIENNA LOSOWA, to funkcja, która zdarzeniom losowym przypisuje liczby. Na przykład, losując z pewnej populacji jednego osobnika przypisujemy mu jego wagę, lub też rzucając monetą przyjmujemy, że wyrzucenie reszki będzie oznaczało wartość 0 a wyrzucenie orła wartość 1. Zmienne losowe dzielimy na: - Skokowe (dyskretne) - Ciągłe 1 0

ZMIENNE LOSOWE (CECHY) -skokowe (dyskretne), które przyjmują skończoną liczbę wartości, zazwyczaj wartości są liczbami całkowitymi z pewnego przedziału (np. liczba oczek na kostce sześciennej do gry, liczba osób w rodzinie, liczba kwiatów na roślinie itp.) - ciągłe, czyli takie które przyjmują niekończenie wiele wartości, np. wszystkie liczby rzeczywiste z pewnego przedziału (przykłady: wzrost człowieka, zawartość cukru w jabłkach, temperatura powietrza). Często takie zmienne podajemy z pewną dokładnością, wynikającą z ograniczeń przyrządów pomiarowych (np. termometru, wagi itp.) ale należy miećświadomość, że dysponując dokładniejszym przyrządem pomiarowym możemy ustalić wartość z coraz większą dokładnością.

Własności rozkładu cechy ilościowej: przeciętny poziom wartości cechy (tendencja centralna), zróżnicowanie (dyspersja), skośność (asymetria). Ocenę tych własności można przeprowadzić posługując się charakterystykami liczbowymi nazywanymi parametrami rozkładu. Parametry klasyczne obliczane na podstawie wszystkich wyników, Parametry pozycyjne - wyznaczane na podstawie miejsca obserwacji w szeregu statystycznym lub częstości ich występowania.

PARAMETRY POŁOŻENIA - opisują przeciętny poziom wartości cechy: wartość średnia (np. średnia arytmetyczna, harmoniczna, geometryczna), wartość typowa najczęściej występująca (dominanta), wartość o ustalonej pozycji w rozkładzie (np. wartość w środku rozkładu - mediana, wartość w jednej czwartej rozkładu - kwartyl pierwszy lub trzech czwartych rozkładu kwartyl trzeci, wartość w jednej dziesiątej rozkładu decyl pierwszy itp.)

Średnia arytmetyczna dla próby prostej x 1, x 2,...x n : Średnia arytmetyczna dla szeregu rozdzielczego o liczbie klas k i liczebności n k w k-tej klasie:

Średnia harmoniczna dla próby prostej x 1, x 2,...x n : Średnia geometryczna dla próby prostej x 1, x 2,...x n :

Dominanta wartość występująca najczęściej w próbie (dominująca, wartość modalna, moda). Mediana (wartość środkowa) średnia pozycyjna; rozdziela całą próbę na dwie części o równych liczebnościach w ten sposób, że w jednej z nich znajdują się jednostki o wartościach nie wyższych od mediany, a w drugiej o wartościach nie niższych od mediany. (dla znalezienia mediany trzeba najpierw uporządkować próbę według wielkości jej elementów, tzn. od ich wartości najmniejszej do największej lub odwrotnie)

PARAMETRY DYSPERSJI (rozproszenia) opisują zróżnicowanie, zmienność w próbie: wariancja odchylenie standardowe (pierwiastek z wariancji) współczynnik zmienności

PARAMETRY ASYMETRII opisują skośność: A = X Me s Współczynnik skośności przyjmuje wartość zero dla rozkładu symetrycznego, wartości ujemne dla rozkładów o lewostronnej asymetrii (wydłużone lewe ramię rozkładu) i wartości dodatnie dla rozkładów o prawostronnej asymetrii (wydłużone prawe ramię rozkładu).

PRAWDOPODOBIEŃSTWEM (wg Laplace) zajścia zdarzenia A nazywamy iloraz liczby zdarzeń sprzyjających zdarzeniu A do liczby wszystkich możliwych przypadków Ώ, zakładając, że wszystkie przypadki wzajemnie się wykluczają i są jednakowo prawdopodobne. Na przykład przy pojedynczym rzucie kostką sześcienną prawdopodobieństwo wyrzucenia dokładnie 3 oczek wynosi 1/6 gdyż wszystkich możliwych zdarzeń jest 6 a tylko jedno spełnia ten warunek. Prawdopodobieństwo przyjmuje wartości z przedziału [0;1]. Wartość prawdopodobieństwa bliższa 1 oznacza zdarzenie bardziej prawdopodobne, czyli zachodzące częściej, natomiast wartość prawdopodobieństwa bliższa 0 oznacza zdarzenie, które jest mało prawdopodobne, czyli zachodzi rzadziej.

ROZKŁAD PRAWDOPODOBIEŃSTWA ZMIENNEJ LOSOWEJ zbiór wartości zmiennej losowej oraz prawdopodobieństwa, z jakimi są te wartości przyjmowane. np. dla pojedynczego rzutu kostką rozkład prawdopodobieństwa można przedstawić następująco: x i 1 2 3 4 5 6 p i 1/6 1/6 1/6 1/6 1/6 1/6 Jedynie dla rozkładów zmiennych skokowych możliwe jest przedstawienie rozkładu prawdopodobieństwa w takiej postaci jak powyżej. Niemożliwe jest to w przypadku rozkładów ciągłych, gdyż nie możemy określić prawdopodobieństwa, że zmienna przyjmie określoną wartość. Możemy natomiast określić prawdopodobieństwo, że zmienna przyjmie wartość z określonego przedziału.

Typowe rozkłady zmiennych losowych skokowych Rozkład dwupunktowy Rozkład dwumianowy (Bernoulliego) Rozkład Poissona

1) Rozkład dwupunktowy Z rozkładem dwupunktowym mamy do czynienia wówczas, gdy w wyniku doświadczenia możemy uzyskać tylko jedną z dwóch wartości zmiennej losowej: x 1 lub x 2 z prawdopodobieństwami odpowiednio p oraz 1-p. W szczególnym przypadku, gdy x 1 =0 oraz x 2 =1 rozkład ten nazywany jest rozkładem zero-jedynkowym. Rozkład dwupunktowy mają wszystkie zjawiska losowe, w których są tylko dwie możliwości np. wystąpienie opadów w pewnym dniu, odpowiedź ankietowanej osoby na pytanie czy pali papierosy, wykiełkowanie nasionka (we wszystkich tych zjawiskach są tylko dwie wykluczające się możliwości) lub

Rozkład dwupunktowy

2) Rozkład dwumianowy (Bernoulliego) Rozkład dwumianowy występuje wówczas, gdy przeprowadza się n jednakowych doświadczeń, z których każde może zakończyć się jednym z dwóch wyników: sukcesem z prawdopodobieństwem p lub porażką z prawdopodobieństwem 1-p. Zmienną losową X w tym eksperymencie jest liczba sukcesów w n próbach. Przykłady rozkładu dwumianowego mogą być podobne jak powyżej, tylko w przypadku większej liczby powtarzanych zdarzeń np. jeśli pytamy 10 osób czy pala papierosy, to liczba osób które odpowiedzą twierdząco jest zmienną mająca rozkład dwumianowy. Rozkład prawdopodobieństwa w rozkładzie dwumianowym jest określony wzorem: n k n k P(X = k) = p ( p) k 1 gdzie n = k n! k!( n k)! k-liczba sukcesów; n liczba prób; p- prawdopodobieństwo sukcesu

Przykładowy rozkład wartości prawdopodobieństwa dla rozkładu dwumianowego dla n = 10 oraz p=0,5

3) Rozkład Poissona Jest rozkładem zmiennej losowej skokowej, z którym mamy do czynienia w przypadku określania prawdopodobieństwa zajścia zdarzeń stosunkowo rzadkich i niezależnych od siebie, takich jak np. liczba usterek w produkowanej partii materiału, liczba osób nieobecnych na zajęciach w pewnym dniu. Rozkład Poissona jest przybliżeniem rozkładu Bernoulliego dla dużych prób i przy małym prawdopodobieństwie zajścia zdarzenia ( sukcesu ). P(X k λ = k) = e k! λ e - podstawa logarytmów naturalnych (e=2,718 ) λ - stała, która jest wartością oczekiwaną i równocześnie wariancją rozkładu,

Przykładowe rozkłady wartości prawdopodobieństw dla rozkładu Poissona dla λ = 2 oraz λ =10

Typowe rozkłady zmiennych losowych ciągłych 1) Rozkład jednostajny 2) Rozkład normalny

1) Rozkład jednostajny Jest to najprostszy z rozkładów zmiennej losowej ciągłej. Mamy z nim do czynienia wtedy, gdy prawdopodobieństwo zajścia zdarzenia jest stałe w pewnym przedziale [a, b]. Przykładem zmiennej mającej rozkład jednostajny jest np. czas oczekiwania na przystanku na autobus przy założeniu, że autobus jeździ dokładnie co np. 20 min. a my wychodzimy nie znając rozkładu jazdy tego autobusu (oczywiście sytuacja jest zupełnie teoretyczna, gdyż zakładamy, że autobus nigdy nie przyjeżdża wcześniej ani się nie spóźnia). Czas oczekiwania na autobus jest w takim wypadku między 0 a 20 min.

2) Rozkład normalny Zwany także rozkładem Gaussa-Laplace'a jest najczęściej spotykanym w naturze rozkładem zmiennej losowej ciągłej. Ciągła zmienna losowa X ma rozkład normalny o wartości oczekiwanej m (często zamiast µ używamy oznaczenia literą µ) i odchyleniu standardowym σ co oznaczamy X~N(m,σ 2 ) lub X~N(m,σ). Funkcja gęstości prawdopodobieństwa rozkładu normalnego standardowego (o średniej równej 0 i odchyleniu standardowym równym 1) oraz wartości prawdopodobieństwa dla wartości zmiennej.

Przykładowe funkcje gęstości prawdopodobieństwa dla rozkładu normalnego o różnych wartościach średnich i tych samych odchyleniach standardowych

Przykładowe funkcje gęstości prawdopodobieństwa dla rozkładu normalnego o takich samych wartościach średnich i różnych odchyleniach standardowych

Standaryzacja zmiennych jest to przekształcenie (transformacja) wartości zmiennej wg następującego wzoru: Z = X σ m gdzie, m-średnia, σ- odchylenie standardowe, X wartość zmiennej przed standaryzacją, Z wartość zmiennej po standaryzacji zmienna po standaryzacji ma rozkład normalny Z ~ N(0, 1), czyli o średniej równej 0 i odchyleniu standardowym równym 1. Standaryzację stosuje się w celu wyrażenia zmiennych w tej samej skali np. w analizie skupień.