Metody eksploracji danych
|
|
- Bartosz Urbański
- 8 lat temu
- Przeglądów:
Transkrypt
1 Metody eksploracji danych Adam Pelikant DEDUKCJA Rozumowanie polegające na wyprowadzeniu z pewnych zdań (prawdziwych przesłanek) wynikającego z nich logicznie następstwa (prawdziwego wniosku) Rozumowanie polegające na dobieraniu następstwa do danej racji logicznej Rozumowanie polegające na uzasadnieniu następstwa za pomocą prawdziwej racji logicznej 1
2 INDUKCJA w filozofii Jedna z metod poznania i ustalania prawdy Wnioskowanie, polegające na wyprowadzeniu ogólnych wniosków z przesłanek, które są poszczególnymi przypadkami tych wniosków INDUKCJA według Sokratesa ( p.n.e.) Metoda ustalania prawdy na podstawie: uzgadniania cech ogólnych w różnorodności i rozbieżności wyprowadzenia pojęcia zawierającego wiedzę pewną i powszechną Powszechna metoda dochodzenia do definiowania pojęć
3 INDUKCJA według Epikurejczyków Amynomachos z Aten Metrodoros z Lampsakos (ok p.n.e.) Polyajnos z Lampsaku Hermachos z Mityleny Epikur ( p.n.e.) Zenon z Sydonu (150 p.n.e.. 70 p.n.e.), Filodemos z Gadary (110 p.n.e p.n.e.) Lukrecjusz Titus Lucretius Carus (99 p.n.e., 55 p.n.e.) Wnioskowanie przez podobieństwa Logiczne uogólnienia indukcji obejmują nie tylko dostępne nam zjawiska, ale także rzeczy niedostępne INDUKCJA nauki empiryczne Metoda polegająca na wprowadzeniu uogólnień na podstawie eksperymentów i obserwacji faktów, formułowaniu i weryfikacji hipotez Zaczątki indukcji w sensie nowożytnym stworzył Fransis acon, który uznał, że indukcja i eksperyment to dwie skuteczne metody ustalania prawdy 3
4 DEDUKCJA A INDUKCJA Dedukcja: wyprowadzanie sądów szczegółowych z sądów ogólnych, przechodzenie od ogółu do szczegółu Indukcja: wyprowadzanie sądów ogólnych ze szczegółowych, przechodzenie od szczegółu do ogółu LUDZKA INTELIGENCJA Praktyczna: umiejętność rozwiązywania konkretnych zagadnień Abstrakcyjna: zdolność operowania symbolami i pojęciami Społeczna: umiejętność zachowania się w grupie Test ineta ok Iloraz inteligencji (IQ) 4
5 SZTUCZNA INTELIGENCJA (ARTIFICIAL INTELLIGENCE) Allen Newell, Herbert Simon (Uniwersytet Carnegie Mellon) John McCarthy (Massachusetts Institute of Technology) Konstruowanie maszyn, o których działaniu dałoby się powiedzieć, że są podobne do ludzkich przejawów inteligencji Dział informatyki, którego przedmiot to: badanie reguł rządzących inteligentnymi zachowaniami człowieka tworzenie modeli formalnych zachowań człowieka tworzenie programów komputerowych symulujących zachowania człowieka Test Turinga (1950 Alan Turing) Nagroda Loebnera - od 1990 dla programu, który skutecznie przejdzie Test Turinga. Konkurs Loebnera najlepszy program do konwersacji ELIZA program symulujący psychoanalityka, Josepha Weizenbauma 1966 r. ALICE - nazwa najskuteczniejszego obecnie programu starającego naśladować ludzką konwersację (projekt Open Source - pomysłodawca Richard Wallace) SYSTEMY UCZĄCE SIĘ Systemy posiadające zdolność poprawiania jakości swojego działania poprzez zdobywanie nowych doświadczeń, które są następnie wykorzystywane podczas kolejnych interakcji ze środowiskiem 5
6 SYSTEMY EKSPERTOWE Systemy te starają się zastąpić fachowca w jednej szczególnej dziedzinie wiedzy Wzorują się one na procesach dedukcyjnych, podobnych do tych, jakie stosuje każdy na co dzień, nie zdając sobie nawet z tego sprawy AZY WIEDZY Systemy ekspertowe opierają się zwykle na bazach wiedzy, czyli zbiorach reguł zapisanych w formie implikacji azy wiedzy mogą powstawać: automatycznie, w oparciu o inteligentną analizę danych eksperymentalnych w wyniku interaktywnego procesu komunikowania się eksperta z interfejsem podszytym sztuczną inteligencją 6
7 PRZYKŁAD Fakty F1: Andrzej ma rybki F: Andrzej ma grzałkę Reguły R1: IF x ma rybki THEN x ma akwarium AZA WIEDZY R: IF x ma grzałkę AND x ma akwarium THEN x ma rybki żyjące Wnioski W1: Andrzej ma akwarium W: Rybki Andrzeja żyją MODUS PONENS Modus ponendo ponens (łac. sposób potwierdzający przez potwierdzenie) - tautologia rachunku zdań mówiąca, że jeśli uznajemy prawdziwość poprzednika prawdziwej implikacji, to musimy uznać też prawdziwość jej następnika: [( p q) p] q Reguła ta może być zapisana także w ten sposób: ( P Q), P Q Reguła odrywania: α α β β Reguła odrywania z podstawieniem: ( R( x) A( x) ) R( a) x A( a) Inny zapis 7
8 MODUS TOLLENS modus tollendo tollens, (łac. sposób zaprzeczający przy pomocy zaprzeczenia) wnioskowanie logiczne, reguła logiki mówiąca, że jeśli zaakceptujemy że z X wynika Y, oraz że Y jest fałszywe, to musimy zaakceptować też fałszywość X. [( p q) q] p Tablica prawdy a b XOR
9 Podstawowe prawa logiczne P (Q R) (P Q) R P (Q R) (P Q) R P Q Q P P Q Q P P (Q R) (P Q) (P R) P (Q R) (P Q) (P R) (P Q) P Q (P Q) P Q P Q Q P P P P Q P Q P Q (P Q) (Q P) P Q (P Q) ( P Q) P P False P P True Zadanie odkrywania wiedzy 1. Na podstawie analizy dostępnych danych odkryć występujące w nich regularności.. Dane - zazwyczaj z bazy danych, w postaci zbioru rekordów charakteryzowanych przez pewne atrybuty. 3. Regularności mogą polegać na zależności pewnych atrybutów od innych lub korelacji występujących między atrybutami (w szczególności współwystępowaniu pewnych wartości atrybutów). 4. Rregularności mogą występować nie tylko dla atrybutów pierwotnie występujących w danych, lecz także dla nowych atrybutów zdefiniowanych w procesie odkrywania (np. atrybutach agregujących pewne pierwotne atrybuty). 5. Odkryte regularności muszą być statystycznie istotne (zweryfikowane przez odpowiednie testy statystyczne). 6. Odkryte regularności muszą być interesujące, przydatne dla posiadacza danych (np. dotyczyć interesujących atrybutów). 7. Odkryte regularności należy sformułować w postaci umożliwiającej ich wykorzystanie do wnioskowania przez człowieka lub automatycznego 9
10 Rodzaje metod odkrywania wiedzy Klasyfikacja: jak przynależność do pewnych kategorii (klas) zależy od atrybutów (drzewa decyzyjne, reguły, klasyfikacja bayesowska). Aproksymacja: jak wartość pewnej funkcji zależy od atrybutów. (algorytmy uczenia się aproksymacji i statystyczne metody regresji) Zależności przyczynowe:, jakie zależności przyczynowe występują między różnymi atrybutami. Uogólnienie klasyfikacji na dowolną liczbę atrybutów zależnych, która dotyczy zależności jednego atrybutu (kategorii) - (sieci bayesowskie). Zależności funkcyjne: jakimi wzorami najlepiej wyrażają się zależności występujące między atrybutami o wartościach liczbowych. Uogólnienie aproksymacji na dowolną liczbę atrybutów zależnych (metody odkrywania równań). Podobieństwo: jakie w analizowanych danych występują grupy rekordów podobnych i jak to podobieństwo zależy od poszczególnych atrybutów, co umożliwia wnioskowanie (metody grupowania). Asocjacje: jakie wartości różnych atrybutów często współwystępują w danych (reguły asocjacyjne). Przykładowe zastosowania Profilowanie klientów - określanie profilu zachowań klienta (banku, operatora telekomunikacyjnego) na podstawie jego historii (transakcji bankowych, połączeń itp.) w celu wykrywania zachowań podejrzanych. Adresowanie ofert - określanie, od jakich cech klienta zależy prawdopodobieństwo jego pozytywnej odpowiedzi na ofertę nowego produktu w celu bardziej efektywnego adresowania ofert. Lojalność klientów - określanie, od jakich cech klienta lub używanych przez niego produktów zależy lojalność wobec firmy w celu minimalizacji prawdopodobieństwa przejścia do firmy konkurencyjnej. Analiza koszyka sklepowego - określanie, jakie grupy towarów są często kupowane łącznie lub w bliskiej sekwencji czasowej. Przewidywanie obciążenia - określanie, jak zapotrzebowanie na dostawy (energii, surowca itp.) zależy od czynników zewnętrznych (pora roku, miesiąca, tygodnia, dnia, pogoda itp.) i ostatniej historii zapotrzebowania, w celu przewidywania przyszłego zapotrzebowania. 10
11 Odkrywanie wiedzy Identyfikacja i zdefiniowanie problemu Uzyskanie i wstępne przetworzenie danych Ekstrakcja wiedzy Ocena i interpretacja wyników Wykorzystanie odkrytej wiedzy Proces odkrywania wiedzy w bazach danych 1. Selekcja danych wybór relacji i krotek, które będą eksplorowane, definicja sposobu łączenia relacji. Transformacja danych konwersja typów atrybutów, definicja atrybutów wywiedzionych, dyskretyzacja wartości ciągłych 3. Eksploracja ekstrakcja wiedzy z danych: generowanie reguł, drzew decyzyjnych, sieci neuronowych itp. 4. Interpretacja wyników wybór najbardziej interesującej wiedzy, logiczna i graficzna wizualizacja wyników Selekcja Transformacja Eksploracja Interpretacja 11
12 Etapy eksploracji danych Analiza problemu dane Selekcja i czyszczenie danych dane wyselekcjonowane Transformacja danych Wybór strategii co do badania danych Konwersja Dyskretyzacja Zmiana reprezentacji z relacyjnej na transakcyjną dane przetworzone Etapy eksploracji danych Wybór narzędzi Wybór algorytmów Zastosowania ich Eksploracja danych wzorce Przygotowanie wyników 50 do oceny 10 0 Obróbka graficzna Analiza wyników A C dane wygodne do analizowania Zastosowanie uzyskanej wiedzy w praktyce 1
13 Stwórz, wybierz bazę danych A dokładniej... Wybierz techn. próbkowania i próbkuj dane Dostarcz brakujące wartości Usuń szumy Normalizuj wartości Przetwórz wartości Utwórz wywiedzione atrybuty Znajdź ważne atrybuty i zakresy wartości Wybierz zadania eksploracji danych Wybierz metodę eksploracji danych Wyekstrahuj wiedzę Sprawdź wiedzę Udoskonal wiedzę Przetwórz do innej formy reprezentacji PUSTY 13
14 Są to zmienne, które mogą przyjmować wartości z nieprzeliczalnego zbioru wartości (przy założeniu, że będą mierzone z wystarczającą dokładnością). Zmienna ciągła jest opisywana dwoma funkcjami: funkcją gęstości f(x) dystrybuantą F(X) F ( X ) = a f ( x) dx Twierdzenie: Definicje: X ) xf ( Najważniejsze rozkłady ciągłe: prostokątny trójkątny normalny (Gaussa) (z) logarytmiczno-normalny Studenta (t) χ (chi kwadrat) Fishera-Snedecora (F) Wallace a-snedecora (R) wykładniczy ZMIENNE LOSOWE CIĄGŁE P(X=a) = O f ( a) = P( X a) E = x) dx ( V ( X ) = [ x E( X )] f ( x) dx dystrybuanta Pojęcia podstawowe funkcja gęstości Funkcja dystrybuanty Funkcja gę stoś ci f(a) dystrybuanta 1 Funkcja dystrybuanty F(a) Wartości zmiennej X Wartości zmie nnej X Interpretacja wykresu całe pole pod funkcją gęstości ma powierzchnię równą 1 wartość funkcji dystrybuanty zmienia się wraz z wartością x w sposób pokazany strzałką (prawa granica pola przesuwa się) znajomość funkcji dystrybuanty umożliwia rozwiązywanie zadań typu: P(X<a), P(X>a), P(7<X<11) itd. 14
15 Rozkład prostokątny (rozkład równomierny, jednostajny, amodalny). Jego funkcja gęstości ma stałą wartość w przedziale (a, b), natomiast dla pozostałych wartości ma wartość równą 0. f ( X ) = 1 b a Funkcja gę stości f(x) 0,14 0,1 0,1 0,08 0,06 0,04 0,0 a=0 b= Wartości zmiennej X a b E( X ) = ( b a) V ( X ) = 1 Rozkład trójkątny Rozkład ten opisują trzy wartości zmiennej: f(x) c a dystrybuanta funkcja gęstości a najmniejsza przewidywana b najbardziej prawdopodobna c największa przewidywana a b c x i X Zalety rozkładu łatwy do matematycznego przetwarzania nadaje się do modelowania wszystkich rozkładów jednomodalnych zrozumiały dla osób nie znających statystyki 15
16 Rozkład wykładniczy f(x) Zmienną losową X jest czas między zajściem dwóch zdarzeń o rozkładzie Poissona ( ) = λ λ x f X e 1 dla x 0, λ 0 X E( X ) = D( X ) = λ F ( X ) = 1 e λx Rozkład wykładniczy w praktyce wykorzystywany jest w teorii niezawodności do modelowania tzw. funkcji niezawodności R(t). Funkcja niezawodności określa prawdopodobieństwo bezawaryjnej pracy elementu w chwili t: P (T t) = 1 F(t) = R(t) λ -intensywność uszkodzenia (awarii) R(t) = e λx Jakie jest prawdopodobieństwo bezawaryjnej pracy maszyny przez co najmniej t godz. (min)? P( T t) Jaki jest średni odstęp czasu między awariami? E(X) (rozkład Gaussa lub krzywa dzwonowa). Jest to rozkład jednomodalny z funkcją gęstości prawdopodobieństwa: f ( x m) 1 σ ( ) x Rozkład normalny = e σ π Parametry rozkładu: wartością średnią m odchyleniem standardowym σ dla - <x< N (m;σ ) Funkcja gę stości f(x) m σ 0,45 0,4 0,35 0,3 0,5 0, σ 0,15 0,1 0,05 0 Wartości zmiennej X WARTOŚĆ ŚREDNIA DECYDUJE O PRZESUNIĘCIU WYKRESU W LEWO LU PRAWO ODCHYLENIE STANDARDOWE DECYDUJE O SMUKŁOŚCI WYKRESU m σ punkt przegięcia mσ Właściwości rozkładu normalnego: dla jednoznacznego określenia wystarczy podać: wartość średnią (oczekiwaną) m i odchylenie standardowe σ; punkty przegięcia funkcji gęstości występują przy wartościach zmiennej losowej równych m- σ i m σ; wartość mjest jednocześnie modą i medianą rozkładu; wartości zmiennej teoretycznie występują w przedziale od - do ; praktycznie wszystkie mieszczą się w granicach od m-3σ do m3σ (99,73% wartości); w przedziale od m-σ do mσ mieści się 95,45% wartości; w przedziale od m-σ do mσ mieści się 68,7% wartości; 1 Funkcja gęstoś ci f(z) 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0, 0, Zmienna standaryzowana Z 0 0, 0,4 0,6 0,8 1 1, 0,13% 13,59%,15% 34,14% 16
17 Rozkład normalny Rozkład normalny jest charakterystyczny dla dowolnego zbioru wartości, na które oddziaływuje wiele niezależnych i jednakowo ważnych czynników przypadkowych, z których żaden nie jest dominujący. TWIERDZENIE CENTRALNE - ogólne Które zmienne zachowują się według rozkładu normalnego? Te, które kształtują się pod wpływem wielu czynników, z których żaden nie ma charakteru dominującego. Standaryzowany rozkład normalny Aby rozwiązywać zadania z rozkładu normalnego, musimy korzystać z tablicy dystrybuanty. Tablica została przygotowana dla rozkładu znormalizowanego zmiennej standaryzowanej Z. POWIERZCHNIA CAŁEGO POLA POD FUNKCJĄ GĘSTOŚCI RÓWNA SIĘ 1 xi m zi = N(0;1) σ Prawo trzech sigm: w przedziale od (m 3σ) do (m3σ) (oś X) od 3 do 3 (oś Z) mieszczą się praktycznie wszystkie (99,74%) wartości zmiennej losowej o rozkładzie normalnym. Tablice rozkładu normalnego tablica funkcji gęstości tablice dystrybuanty tablica kwantyli (wartości krytycznych) Tablica funkcji gęstości służy do budowy wykresu funkcji gęstości (krzywej Gaussa) do odczytu P(X a) lub P(Z a) Tablice dystrybuanty: w przedziale z od 0 do 3: F(z) od 0,5 do 1 (połowa funkcji) Z 0,00 0,01 0,0 0,1... 0,5 0,6... 1,0 1,5,0 3,0 4,0 0,5000 0, ,6915 0, ,8413 0,933 0,977 0, , z ,0 0,1 0, 0,3... 1,0,0 3,0 4, Funkcja gęstoś ci f(z) 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0, 0, Zmienna standaryzowana Z 0 0, 0,4 0,6 0,8 1 1, Przechodząc ze zmiennej Z na zmienną X: x i = m z i σ 17
18 Rozkład logarytmiczno-normalny Jest to rozkład, który po zlogarytmowaniu zmiennej X staje się rozkładem normalnym. Służy do opisywania tych zjawisk, które oprócz wielu wartości małych i średnich mają również wartości bardzo duże (zanieczyszczenie środowiska, wydajność produkcji, wielkość złóż kopalin użytecznych itd.). f(x) małe średnie duże bardzo duże X Jednostki-giganty, które zglobalizowały gospodarkę światową: duże złoża węgla, ropy i gazu, wielkie zakłady produkcyjne itp. Przetwarzanie danych empirycznych w rozkład normalny 1. Podzielenie danych x i na przedziały (liczebność 8-1). Ustalenie liczebności empirycznych n ie 3. Przeliczenie liczebności na prawdopodobieństwa empiryczne p ie 4. Obliczenie parametrów x oraz s 5. Standaryzacja końców przedziałów 6. Wyznaczenie prawdopodobieństw teoretycznych p it 7. Wyliczenie liczebności teoretycznych n it 8. Ustalenie czy dwa rozkłady różnią się od siebie istotnie porównanie n ie i n it X 18
19 WNIOSKOWANIE STATYSTYCZNE Przedmiotem tego działu jest a) szacowanie nieznanych parametrów rozkładów zmiennych losowych; b) wyciąganie wniosków o rozkładzie i parametrach populacji generalnej na podstawie badania próbki (hipotezy statystyczne). Teoria estymacji zajmuje się szacowaniem parametrów populacji generalnej na podstawie próbki statystycznej. Rodzaje estymacji punktowa Sposoby pobierania próbek statystycznych przedziałowa Próbka musi być pobrana w sposób losowy, tzn. każdy element populacji (tj. zbiorowości generalnej) musi mieć jednakową szansę trafienia do próbki. losowanie systematyczne Wybór co k-tej jednostki zbiorowości generalnej. Pierwszą jednostkę wybieramy losowo (np.tablice liczb losowych) losowanie warstwowe Podział zbiorowości na podzbiory, a następnie losowanie bez zwracania w każdej warstwie (podzbiorze). Próbę stanowi suma wylosowanych jednostek. losowanie proporcjonalne Zróżnicowane prawdopodobieństwo dostania się do próby. Pojęcia z teorii estymacji parametr populacji liczbowa charakterystyka całej populacji statystyka z próby liczbowa charakterystyka próby estymator (estimator) parametru populacji statystyka z próby używana do oszacowania tego parametru. Oceną lub szacunkiem parametru jest konkretna wartość liczbowa estymatora z danej próby estymacja - podanie wartości oceny nieznanego parametru populacji Estymator jest to zmienna losowa, której realizacjami są wartości rozważanego parametru powstałe przez pobranie z populacji bardzo wielu próbek. Estymator jak każda zmienna ma swoją wartość oczekiwaną i odchylenie standardowe. Wartość oszacowana (estimate) jest to wartość danego parametru wyznaczona na podstawie jednej, rzeczywiście pobranej próbki. Statystyka z próby X Rozkłady z próby Estymatorem parametru μ x Ocena (oszacowanie) parametru μ Rozkład statystyki z próby jest rozkładem prawdopodobieństwa wszystkich możliwych wartości, jakie ta statystyka może przyjąć, jeżeli obliczamy je na podstawie badania losowych prób o tych samych rozmiarach n, pobranych z określonej populacji. 19
20 Pojęcia z teorii estymacji Zależności σ x σ = n σ x = σ n s x = s n s = ( x x) i n 1 oraz wnioski średnia estymatora równa się średniej populacji znamy wzór na błąd oszacowania średniej gdy n, σ x N( μ, ) n E ( x) σ s x = n = x μ =μ Centralne twierdzenie graniczne Jeżeli pobieramy próbę z populacji o średniej μ i skończonym odchyleniu standardowym σ, to rozkład średniej z próby X, dąży do rozkładu normalnego o średniej μ i odchyleniu standardowym σ, gdy liczebność próby wzrasta n σ nieograniczenie, czyli dla dostatecznie dużych n : X N ( μ, ) n Oznaczenia: nieobciążony Θ parametr populacji Θˆ estymator E( Θˆ ) = średnia estymatora E( Θ) ˆ μ Θ ˆ wartość oczekiwana estymatora jest równa szacowanemu parametrowi zgodny (PWL) prawdopodobieństwo, że jego wartość jest bliska wartości szacowanego parametru, wzrasta wraz ze wzrostem liczebności próby (jeśli podlega prawu wielkich liczb - tw. Kołmogorowa) gdy dla każdego ε>0 = Θ najefektywniejszy (V min ) estymator o najmniejszej wariancji Cechy dobrego estymatora lim n P { Θˆ Θ < ε} = 1 0
21 Metody uzyskiwania estymatorów: metoda momentów metoda najmniejszych kwadratów metoda największej wiarygodności Nazwa parametru Wartość średnia Odchylenie standardowe Wariancja Proporcja (struktura) Symbol dla populacji μ σ σ π Symbol dla próbki x s s p Liczba stopni swobody ν Jest to liczba określająca ile danych ze zbioru można zmienić bez zagrożenia zmianą wyznaczanego parametru (statystyki). przy obliczaniu średniej ν = n 1 ogólnie ν = n k x 1 x x 3 x 4 x 5 x 6 = Σx i /6 można można można można można nie można nie można zmieniać zmieniać zmieniać zmieniać zmieniać zmieniać zmieniać ESTYMACJA WARTOŚCI ŚREDNIEJ POPULACJI Celem jest ustalenie ile wynosi nieznana wartość μ: estymacja punktowa: μ = x estymacja przedziałowa: budowa przedziału ufności, w którym z prawdopodobieństwem 1 α znajdzie się nieznane μ Przedział ufności jest to przedział, w którym z prawdopodobieństwem 1 α znajduje się nieznana wartość średnia populacji μ. Poziom ufności (1 α) jest to prawdopodobieństwo, że nieznana wartość μ znajduje się w przedziale ufności. Poziom istotności (α) jest to prawdopodobieństwo, że nieznana wartość μ nie znajduje się wewnątrz przedziału ufności. α ustala statystyk kluczowe w statystyce matematycznej inne nazwy: margines błędu, poziom krytyczny 1
22 Przedział ufności dla nieznanej średniej dla populacji przy dużej próbce: jeśli znamy odchylenie standardowe populacji σ P( x z σ < μ < x z σ ) = 1 α α x α x jeśli nie znamy odchylenia standardowego populacji P( x z s < μ < x z ) = 1 α s α x α x Postępowanie: pobieramy próbkę, liczymy dla niej x oraz s budujemy przedział ufności (g d, g g ), w którym z prawdopodobieństwem 1 α znajduje się nieznana wartość średniej μ dla populacji Szerokość przedziału ufności dla μ zależy od: przyjętego poziomu istotności α wielkości próbki n jej odchylenia standardowego s Funkcja gę stoś ci g d α 1 α Średnia dla populacji x α g g ESTYMACJA WSKAŹNIKA STRUKTURY (PROPORCJI DLA POPULACJI) Jeżeli badana cecha ma charakter jakościowy, w wyniku badań uzyskujemy jedynie informację o tym, czy dany element populacji ma czy też nie wyróżnioną cechę jakościową. Elementy populacji możemy więc podzielić na dwie klasy: elementy wyróżnione w populacji (posiadające interesującą cechę); i niewyróżnione. Ustala się proporcję p=k/n (frakcję, wskaźnik struktury) dla próbki i po przyjęciu określonego poziomu istotności α buduje się przedział ufności dla nieznanej proporcji π dla populacji: P( p z α s p < π < p z s α p ) = 1 α s p = p(1 p) n I tym razem szerokość przedziału jest zależna od przyjętego poziomu istotności oraz od błędu oszacowania proporcji s p, który z kolei jest funkcją wielkości próbki i jej proporcji.
23 PRZEDZIAŁ UFNOŚCI DLA ŚREDNIEJ POPULACJI PRZY MAŁEJ PRÓCE W przypadku małej próbki estymator Studenta. Rozkład Studenta x μ x μ t = = s s x n zachowuje się według rozkładu Funkcja gęstości rozkładu t jest funkcją liczby stopni swobody Gdy ν dąży do, rozkład t dąży do rozkładu normalnego X ν = n 1 Rozkład normalny standaryzowany, z tablica rozkładu Studenta (Skrypt) pokazuje kwantyle rzędu α dla danego ν (wartości t odpowiadające założonemu poziomowi istotności dla danej liczby stopni swobody) Rozkład Studenta, t Parametry rozkładu μ, σ ν Średnia 0 0 Wariancja 1 ν/ν 0 rozkład normalny z rozkład Studenta t ν=8 z α/ t α/ (ν) Fragment tablicy rozkładu Studenta Stopnie swobody, ν α = 0,0 α / = 0, , , ,8 α = 0,10 α / = 0,0 5. 1,81. 1,684. 1,645 α = 0,05 α / = 0,0 5.,8.,01. 1,960 Przedział ufności dla średniej dla populacji przy małej próbce P( x t s < μ < x t s ) = 1 α α x α x ( n 1) ( n 1) rozkład Studenta daje szersze przedziały ufności niż rozkład normalny, gdyż zabezpiecza nas przed skutkami pobrania mniejszej próbki Podsumowanie estymacji wartości średniej dla populacji Typ rozkładu Wielkość zmiennej X próbki, n Odchylenie standardowe populacji, σ Znane Nieznane Granice przedziału ufności Normalny Dowolna x ± z α/ σ x Inny n 30 x ± z α/ σ x Normalny n 30 x ± z α/ s x Dowolna x ± t α/ s x Inny n 50 x ± z α/ s x n < 50 Unikać 3
24 ESTYMACJA WARIANCJI DLA POPULACJI Jeśli z populacji o rozkładzie normalnym pobierzemy bardzo wiele próbek, to estymator wariancji S będzie miał rozkład zwany chi kwadrat ( n 1) χ = s σ Rozkład χ : jest zależny od liczby stopni swobody ν jest asymetryczny: ogony nie są jednakowe przy ν >30 zbliżony do normalnego E(χ ) = ν V(χ )= ν f(χ ) ν =1 ν = 4 ν = 15 0 χ tablica rozkładu χ (SKRYPT) nie pokazuje ani funkcji gęstości, ani funkcji dystrybuanty pokazuje wartości kwantyli dla odpowiedniego rozkładu χ (dla ustalonej liczby stopni swobody) f(χ ) α / 1 α α / Liczba Lewy ogon Prawy ogon stopni swobody 0,990 0,975 0,950 0,050 0,05 0, ,053 3,816 4,575 19,68 1,9 4,7 0 χ χ 1- α / χ α / Przedział ufności dla nieznanej wariancji populacji (niesymetryczny) Mała próbka Duża próbka ( n 1) s P χ ( n 1) s < σ < χ ( α / 1 α / s s P < σ < = 1 α zα α 1 / z 1 / n n ) = 1 α 4
25 systematyczny łędy RODZAJE ŁĘDÓW losowy Pomiar wykonany w tych samych warunkach daje błąd o stałej wartości Wystąpienie błędu -a i a ma to samo prawdopodobieństwo Przy zmianie warunków błąd przyjmuje różną od zera stałą wartość Prawdopodobieństwo błędu a jest funkcją malejącą Im błąd a bliższy zera tym bardziej prawdopodobny statystycznym. mała próba populacja niejednorodna zły operator losowania obciążenie estymatora o charakterze pozastatystycznym uwikłanie wielu czynników bardzo niebezpieczny statystycznym pozastatystycznym ŁĄD SYSTEMATYCZNY łędy 0,11 0,17 0,4 0,75 0,31 0,34 0,36 0,375 0,38 0,388 Θ parametr Θˆ estymator parametru Serie1 0,11 0,17 0,4 0,75 0,31 0,34 0,36 0,375 0,38 0,388 ŁĄD LOSOWY E( Θˆ ) Θ Serie1 D( Θˆ ) Θˆ D( Θˆ ) 5
26 Wielkość błędu systematycznego to miara obciążenia estymatora E( Θ) ˆ łędy Θ absolutny błąd oceny Δ= Θ Θˆ Ponieważ nieznany jest względny błąd oceny Δ'= Θ W praktyce wyznacza się: Θ Θˆ ustalenie błędu systematycznego jest niemożliwe. poziom absolutny (d) dokładności poziom względny (δ) dokładności zakłada się prawdopodobieństwo 1 - α dotrzymania błędu d Θ lub P{ Θˆ Θ d} = P{ d Θˆ Θ d} = 1 α P{ Θ ˆ Θ > d} = α LICZNOŚĆ PRÓY DO OSZACOWANIA ŚREDNIEJ nieznane odchylenie standardowe populacji d - błąd szacunku średniej wynosi: d = tα/ t n = d s n α/ s tα/ - kwantyl rozkładu Studenta dla no-1 stopni swobody, no - liczność tzw. próby pilotażowej użytej do oszacowania odchylenia standardowego s 6
27 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH Hipoteza statystyczna to każde przypuszczenie dotyczące populacji generalnej wysnute na podstawie próbki statystycznej Hipotezy statystyczne dzielimy na: parametryczne nieparametryczne Ponieważ przy posługiwaniu się próbką nigdy nie ma pewności, stawia się dwie wykluczające się hipotezy: hipotezę zerową H 0 hipotezę alternatywną H 1 (H a ) Weryfikacja: polega na sprawdzeniu, która z nich jest prawdziwa, a która fałszywa posługujemy się testami statystycznymi (z, t, χ, F, R i inne) Kolejność czynności przy weryfikacji hipotez: 1. Sformułowanie H 0 i H 1 (H 0 : μ=4,0 H 1 : μ 4,0; lub μ>4,0; lub μ<4,0). Przyjęcie poziomu błędu I rodzaju α (α = 0,05) 3. Dobranie testu weryfikującego (statystyki, sprawdzianu hipotezy Zn) w zależności od rodzaju hipotezy 4. Ustalenie obszaru krytycznego testu (odczytanie wartości krytycznej statystyki weryfikującej z tablic dla α: z tabl, z kr, z α ) 5. Obliczenie wartości statystyki na podstawie próbki (z obl, z emp ) 6. Porównanie dwu statystyk i podjęcie decyzji o przyjęciu lub odrzuceniu hipotezy H 0 7. Interpretacja podjętej decyzji Prawidłowość podejmowanych decyzji HIPOTEZA DECYZJA STATYSTYKA ZEROWA JEST przyjąć H 0 odrzucić H 0 PRAWDZIWA Nie ma błędu łąd I rodzaju FAŁSZYWA 1 α łąd II rodzaju β α Nie ma błędu 1 β α=poziom błędu I rodzaju, β = poziom błędu II rodzaju, 1 β =moc testu α=p(h0 odrzucona/h0 jest prawdziwa) β = P(H0 nieodrzucona/h0 jest fałszywa) Obszar krytyczny testu W należy tak ustalić, aby zminimalizować błąd II rodzaju. Obszar krytyczny to zbiór wartości statystyki Z n (tj. sprawdzianu hipotezy) spełniającej warunki: P( Z n W/ H 1) 0 ) α = P( Z n W/ H1) max ) = W praktyce bierze się warunek (1) stąd szczególny rodzaj testów, zwanych testami istotności. 7
28 Hipotezy nieparametryczne Dotyczą rozkładów populacji lub cech niemierzalnych Do ich weryfikacji stosuje się następujące testy: test χ test Kołmogorowa-Smirnowa testy serii (długości i liczności serii) Przykład hipotezy nieparametrycznej: H 0 : rozkład populacji nie różni się istotnie od rozkładu normalnego H 1 : rozkład populacji różni się istotnie od rozkładu normalnego Testowanie przy użyciu testu (statystyki) χ TEST DLA ROZKŁADÓW ZMIENNEJ LOSOWEJ CIĄGŁEJ i SKOKOWEJ!!! n e liczebność empiryczna n t liczebność teoretyczna k liczba przedziałów (klas) χ = k obl i= 1 ( nie nit ) nit Reguła decyzyjna: jeżeli χ obl > χ tabl, odrzucamy H 0 na korzyść H 1 jeżeli χ obl < χ tabl, nie ma podstaw do odrzucenia H 0 Przykład Sprawdzić, czy rozkład szybkości czytania uczniów wybranego gimnazjum jest rozkładem normalnym. Do próbki wylosowano 101 uczniów ostatniej klasy gimnazjalnej jednej ze szkół w woj. Małopolskim. Przyjmij α=0,01. Szybkość czytania Liczba słów/5 min uczniów Razem 101 wartości x oraz s obliczono z szeregu dwustopniowego x = 103,6 słów/5 min s = 3,95 słów/5 min Test nieparametryczny χ H 0 : rozkład populacji nie różni się istotnie od rozkładu normalnego H 1 : rozkład populacji różni się istotnie od rozkładu normalnego 8
29 wyliczanie liczności teoretycznych na podstawie funkcji gęstości xi ni xi x zi f(zi) nit ,6 8,6 6,6,68,18 1,67 0, , , ,6 1,9 5, ,6 1,16 0, , ,6 0,66 0, , ,6 0,15 0, , ,4 0,35 0, , ,4 0,86 0,756 14, ,4 1,36 0,158 8, ,4 1,87 0, , ,4,38 0,0406 1, ,4,88 0, ,3 Razem ,0 wartości z i obliczono przez standaryzację środków przedziałów klasowych wartości f(z i ) odczytano z tablicy funkcji gęstości liczebności teoretyczne policzono według wzoru d nit = f(zi ) n s d = szerokość przedziału (d=) n = liczebność próbki (n=101) Liczebności faktyczne teoretyczne ne nt,5 5,0 10,4 16,4 0, 19, 14,1 8,1 3,6 1,5 Różnice ne nt (ne nt) (ne nt) /nt 1,5,0 4,4 0,4 11,8 0,8 6,1 4,1 0,4,5,5 4,00 19,36 0,16 139,4 0,64 37,1 16,81 0,16 6,5 0,90 0,80 1,86 0,01 6,89 0,03,64,08 0,04 4, ,0 0,0 19,4 połączono dwa pierwsze i dwa ostatnie przedziały odczytujemy χ tabl = 18,48 dla α=0,01 i ν = 7 (k=10 po połączeniu, r=) stwierdzamy, że χ obl > χ tabl odrzucamy hipotezę, że rozkład populacji jest rozkładem normalnym (decyzja obarczona błędem nie większym niż 0,01) stwierdzamy, że rozkład szybkości czytania uczniów różni się istotnie od rozkładu normalnego Test nieparametryczny χ wyliczanie liczności teoretycznych na podstawie dystrybuanty xi ni xi x zi F(zi) pt nt ,9 7,6 5,6 3,6 1,6 0,4,4 4,4 6,4 8,4 10,4 1,4,43 1,9 1,4 0,91 0,41 0,10 0,61 1,11 1,6,13,63 3,14 0,0075 0,074 0,0778 0,1814 0,3409 0,5398 0,791 0,8665 0,9474 0,9834 0,9957 1,0000 0,0075 0,0199 0,0504 0,1036 0,1595 0,1989 0,1893 0,1374 0,0809 0,0360 0,013 0,0043 0,9,0 5,1 10,5 16,1 0,1 19,1 13,9 8, 3,6 1, 0,5 Razem 101 1, połączono dwa pierwsze i dwa ostatnie przedziały odczytujemy χ tabl = 18,48 dla α = 0,01 i ν = 7 (k = 10 po połączeniu, r = ) stwierdzamy, że χ obl < χ tabl nie ma podstaw do odrzucenia hipotezy, że rozkład populacji jest rozkładem normalnym (decyzja ta jest obarczona błędem nie większym niż 0,01) stwierdzamy, że rozkład szybkości czytania uczniów nie różni się istotnie od rozkładu normalnego 9
30 Testowanie przy użyciu testu Kołmogorowa-Smirnowa TEST TYLKO DLA ROZKŁADÓW ZMIENNEJ LOSOWEJ CIĄGŁEJ!!! dane dzieli się na przedziały klasowe (klasy) do sprawdzenia, czy dana próbka może pochodzić z populacji o założonym rozkładzie, używa się dwu dystrybuant empirycznej i teoretycznej dla każdej klasy określa się wartość obu dystrybuant i określa bezwzględną wartość różnicy pomiędzy nimi znajduje się największą różnicę D i wylicza empiryczną wartość statystyki λ według wzoru λ obl = D n Test ten jest mniej dokładny niż test χ i może dać inny wynik F(X) 1 dystrybuanta empiryczna dystrybuanta teoretyczna największa różnica D z tablicy statystyki λ (SKRYPT) odczytuje się wartość λ tabl dla wybranego poziomu ufności decyzję o przyjęciu lub odrzuceniu H 0 podejmuje się jak poprzednio klasy wielkości X Przykład cd x i n i n icum F(x i) F(z i) /F(x i)-f(z i)/ ,0099 0,0396 0,0693 0,187 0,871 0,6040 0,800 0,881 0,908 0,9604 0,9901 1,0000 0,0075 0,074 0,0778 0,1814 0,3409 0,5398 0,791 0,8665 0,9474 0,9834 0,9957 1,0000 0,004 0,01 0,0085 0,057 0,0538 0,064 0,079 0,0147 0,066 0,030 0,0056 0,0000 λ obl = D n = 0,079*10,05=0,73 Razem 101 z tablicy odczytujemy wartość λ tabl = 1,63 dla α = 0,01 stwierdzamy, że λ tabl > λ 0bl nie ma podstaw do odrzucenia hipotezy, że rozkład populacji jest rozkładem normalnym (decyzja ta jest obarczona błędem nie większym niż 0,01) stwierdzamy, że rozkład szybkości czytania uczniów nie różni się istotnie od rozkładu normalnego 30
31 Testowanie przy użyciu testów serii test liczby serii test długości (najdłuższej) serii Serię tworzą elementy ułożone w kolejności rosnącej wartości, pochodzące z dwu różnych populacji: kobiety i mężczyźni (wzrost), ludzie z dwu krajów (spożycie), pracownicy dwu firm (wydajność). test liczby serii H 0 populacje nie różnią się od siebie istotnie Przykład serii: A A A A liczba elementów: 10 (n 1 =4, n =6) liczba serii: k = 6 Z tablicy testu serii dla n 1 i n odczytujemy k α Lewostronny obszar krytyczny: P(k k α ) = α Jeżeli k < k α odrzucamy H 0 Jeżeli k > k α nie ma podstaw do odrzucenia H 0 test długości (najdłuższej) serii Przykład serii: A A A A długość najdłuższej serii: l = 3 Z tablicy odczytujemy l α Prawostronny obszar krytyczny: P(l > l α ) = α Jeżeli l > l α odrzucamy H 0 l < l α Jeżeli nie ma podstaw do odrzucenia H 0 Hipotezy parametryczne dotyczą one parametrów populacji generalnej, które oznaczymy ogólnym symbolem θ hipoteza zerowa polega na przyjęciu, że nieznane θ jest równe θ 0 weryfikacja prawdziwości tej hipotezy polega na sprawdzeniu, czy wartość θ 0 znajduje się w przedziale ufności parametru θ 1. Trzy sytuacje przy weryfikacji hipotez H0 : θ = θ0 H1 : θ θ0 Przedział przyjęcia H 0 : z α/ <z obl <z α/ Przedziały odrzucenia H 0 : z obl < z α/ oraz z obl >z α/ czyli z obl > z α/ α/ 1 α α / z α/ z α/ 1 α α. H0 : θ = θ0 H1 : θ > θ0 z α Przedział przyjęcia H0 :z obl <z α Przedział odrzucenia H 0 : z obl >z α 31
32 3. Hipotezy parametryczne H0 : θ = θ0 H1 : θ < θ0 Przedział przyjęcia H 0 :z obl > z α Przedział odrzucenia H 0 : z obl < z α α 1 α z z α Rzeczywisty poziom istotności α założony poziom istotności(błąd I rodzaju) α = 0,05 z tabl = 1,645 1 α α z α 1 P P P poziom istotności rzeczywisty z obl =,0 P = 0,017 z obl HIPOTEZY O ŚREDNIEJ DLA POPULACJI I. Duża próbka stosujemy statystykę z [o rozkładzie normalnym N(0;1)] Pobieramy próbkę i liczymy x μ z 0 obl = lub σx σ s σx = sx = x μ z 0 n n obl = sx H 0 : μ = μ 0 H 0 : μ = μ 0 H 0 : μ = μ 0 H 1 : μ μ 0 H 1 : μ > μ 0 H 1 : μ < μ 0 Reguła decyzyjna Odrzucamy H 0, jeżeli... z obl >z α/ z obl >z α z obl < z α H 0 : μ=μ 0 3
33 II. Mała próbka stosujemy statystykę t (o rozkładzie Studenta) Pobieramy n-elementową próbkę i liczymy x μ t 0 obl = sx H 0 : μ = μ 0 H 0 : μ = μ 0 H 0 : μ = μ 0 H 1 : μ μ 0 H 1 : μ > μ 0 H 1 : μ < μ 0 Reguła decyzyjna Odrzucamy H 0, jeżeli... t obl >t α/(n-1) t obl >t α(n-1) t obl <t α(n-1) Przykład 15. W celu sprawdzenia, czy nowy lek jest lepszy od dotych-czasowego, zbadano jego skuteczność na 6 chorych mierząc współczyn-nik odbudowy czerwonych ciałek krwi: 6,3; 7,8; 8,1; 8,3; 8,7 i 9,4. Lek używany dotychczas daje 8,3. Sprawdź hipotezę przy poziomie istotności 0,01. Zakładamy rozkład normalny współczynnika i wybieramy test t. Parametry próbki: n = 6; x = 8,1; s = 1,04 8,1 8,3 t Hipotezy: H 0 : μ = 8,3; H 1 : μ < 8,3 obl = = 0,47 1,04 Statystyka t: t 0,01(5) = - 3,365 6 Porównanie: t obl > t tabl Wniosek: nowy lek z pewnością nie jest lepszy od dotychczasowego HIPOTEZY O WARIANCJI POPULACJI wariancja jest miarą jakości wyrobów; dla klienta jest ważniejsza niż średnia stosujemy χ tabl = χ α,n 1 zakładamy rozkład normalny populacji (n 1)s pobieramy n-elementową próbkę, dla której wyznaczamy s i liczymy χobl = σ 0 H 0 : σ = σ 0 H 0 : σ = σ 0 H 0 : σ = σ 0 H 1 : σ σ 0 H 1 : σ > σ 0 H 1 : σ < σ 0 Reguła decyzyjna Odrzucamy H 0, jeżeli... χ obl >χ α/ χ obl >χ α χ obl <χ 1- α lub χ obl <χ 1-α/ σ 0 Przykład 16. Dla sprawdzenia hipotezy, że wariancja wykonania normy =1,5(%) wylosowano 81-osobową grupę robotników, dla których wariancja równa się 11,4 (%). Przyjmij α=0,10 do zweryfikowania tej hipotezy (przy założeniu, że populacja ma rozkład normalny). H 0 : σ = 1,5 α / = 0,05 (80)(11,4) χ 73 H 1 : σ 1,5 1 α / = 0,95 obl = χ 1- α / 1,5 =60,39 χ α / =101,88 NIE MA PODSTAW DO ODRZUCENIA H 0 istotniemoże YĆ 1,5 (%) WARIANCJA normy dla POPULACJI nie różni się 33
34 HIPOTEZY O FRAKCJI W POPULACJI w przypadku dużej próby Stosujemy statystykę z [o rozkładzie normalnym N(0;1)] Pobieramy próbkę i liczymy pˆ p z = o gdzie qo = 1 po poqo / n H 0 : p = p 0 H 0 : p = p 0 H 0 : p = p 0 H 1 : p p 0 H 1 : p > p 0 H 1 : p < p 0 Reguła decyzyjna Odrzucamy H 0, jeżeli... z obl >z α/ z obl >z α z obl < z α Przykład 17. Udział pewnej spółki w rynku bardzo wyraźnie reaguje na nasilenie reklamy własnej i konkurencji. Obecnie udział w rynku wynosi 56%. Zarząd spółki chce wiedzieć czy udział ten zmienił się wskutek ostatniej kampanii reklamowej konkurentów oraz wskutek nasilenia własnej kampanii reklamowej. W pobranej próbie 500 klientów, 98 nabyło produkt spółki. Czy są podstawy do wniosku, że udział spółki w rynku nie wynosi już 56%? Przyjąć poziom istotności 0,01. z = pˆ po 0,596-0,56 = = 1,615 poqo / n 0,56 0,44/500 Wnioskowanie WNIOSKOWANIE STATYSTYCZNE Z DWU PRÓEK Eksperyment statystyczny polega na pobraniu dwu próbek: badanej, którą poddaje się działaniu danego czynnika kontrolnej, która nie podlega działaniu i służy do porównania Estymacja różnicy pomiędzy średnimi dwu populacji mamy dwie populacje o rozkładzie normalnym lub pobieramy próbki (o liczebności >30) populacje te mają średnie μ 1 i μ oraz znane wariancje σ 1 i σ pobieramy z nich próbki o liczebności n 1 i n, średniej x 1 i x, oraz wariancji s 1 i s interesuje nas nieznana różnica pomiędzy średnimi: μ 1 μ mamy do czynienia z estymatorem x 1 x, którego błąd oszacowania Gdyż z własności wariancji wynika, że σ1 σ σ x1 x = n1 n σ ( X Y ) = σ ( X ) σ (Y ) ( x 1 x ) z α/ σ x1 x dolna Granice przedziału ufności dla μ 1 μ : ( x 1 x ) z α/ σ x1 x górna σ σ σ σ P ( x 1 α < μ μ < 1 α = 1 α 1 x ) z / 1 ( x1 x ) z / n 1 n n1 n Jeżeli nie znamy wariancji obu populacji, możemy zastąpić je wariancjami próbek s 1 i s ale: jeśli rozkłady normalne oraz n 1 >30 i n >30 jeśli rozkłady nie normalne oraz n 1 >50 i n >50 34
35 TESTOWANIE HIPOTEZ H 0 : μ 1 - μ = D 0 H 0 : μ 1 - μ = D 0 H 0 : μ 1 - μ = D 0 H 1 : μ 1 - μ D 0 H 1 : μ 1 - μ >D 0 H 1 : μ 1 - μ <D 0 Reguła decyzyjna Odrzucamy H 0, jeżeli... z obl >z α/ z obl >z α z obl < z α ( x1 x ) D z 0 obl = s1 s n1 n Przykład 18. Porównujemy dwie metody sprzedaży pewnego towaru, realizowane w dwu grupach sklepów. Zmienną losową X jest tygodniowa sprzedaż wyrażona w sztukach. Wyznacz 95-procentowy przedział ufności dla rzeczywistej różnicy wielkości sprzedaży dwoma metodami. Próbka jest duża I metoda n 1 = 51 II metoda n = 54 x 1 = 6,5 x =,4 s 1 = 9,1 s = 6,7 wartość oszacowana różnicy x 1 x = 4,1 błąd oszacowania różnicy sx 1, x = P ( 1, 0 < μ1 μ < 7, ) = 0, 95 W przypadku małych próbek, pobranych z populacji o rozkładzie normalnym i o nieznanej wariancji, rozróżniamy dwa przypadki: A wariancje populacji są sobie równe wariancje populacji nie są sobie równe W przypadku A stosujemy statystykę t o (n 1 n ) stopniach swobody, zaś przedział ufności dla różnicy średnich jest dany wzorem P ( x1 x tα / s < μ1 μ < x1 x tα / s ) = 1 α n1 n n1 n gdzie s = TESTOWANIE HIPOTEZ ( n1 1 )s1 ( n 1 )s n1 n Przykład 19. Pewien koncern chemiczny bada zanieczyszczenie powietrza w dwu różnych miejscowościach (w ciągu kilku dni o ustalonej godzinie): Próbka jest mała I miasto n 1 = 8 II miasto n = 11 x 1 = 0,3 ppm s 1 = 0,07 ppm wartość oszacowana różnicy x 1 x = 0,09 ppm błąd oszacowania różnicy 0,04758 x = 0,3 ppm s = 0,1 ppm wartość statystyki t 0,05(17) =,11 dolna granica przedziału ufności ( 0,09) (,11)(0,04758) = 0,19 ppm górna granica przedziału ufności ( 0,09) (,11)(0,04758) = 0,01 ppm P ( 0, 19 < μ1 μ < 0, 01) = 0, 95 35
36 TESTOWANIE HIPOTEZ W przypadku stosujemy statystykę t Fishera-ehrensa ' s 1 s ' s < μ μ < 1 s P ( x = 1 α 1 x ) t 1 ( x1 x ) t n 1 n n1 n ' t = tα /, ν ( s1 / n1 s / n ) ( ) ( s / n s / n ) ν = 1 1 n1-1 n -1 Przykład 0. Przedsiębiorstwo rozważa, w której stacji telewizyjnej uloko-wać reklamę. Zbadano ceny wynegocjowane za 30-sekundowe spoty przez różnych klientów: Próbka jest mała I stacja n 1 = 14 II stacja n = 4 x 1 = 883 zł x = 47 zł s 1 = 13 zł s = 63 zł Szef firmy stwierdził, że decyzję podejmie w zależności od tego, czy I stacja jest średnio droższa od II tylko o 500 zł, czy o więcej. Sprawdź odpowiednie hipotezy przy poziomie istotności 0,05. H 0 : μ 1 μ = 500 ( x1 x ) 500 t obl = H 0 : μ 1 μ > 500 s1 s Jest to przypadek stosujemy statystykę t n1 n t obl =,33 t 0,05(14) = 1,761 Odrzucamy H 0 na korzyść H 1 : stacja I jest średnio droższa od stacji II o co najmniej 500 zł z prawdopodobieństwem poniżej 0,05 (rzeczywisty poziom istotności). Wariancje dwu populacji Wariancja jest wielokrotnie ważniejsza niż średnia Statystyka Fishera, dana dwoma parametrami: ν 1, ν χ1 ν F = 1 χ ν f(f) Rozkład F dla α F Liczba stopni swobody mianownika Liczba stopni swobody licznika , 19,3 3 9,1 9,01 4 α=0,05 6,39 5 5,19 6 4,53 7 4,1 8 3,84 9 5,1 4,6 3,86 3,63 3,48 Tablice rozkładu F dla każdego α oddzielna tablica! Obszar krytyczny zawsze prawostronny 36
37 Rozkład F dla α f(f) Próbki: n 1 n s 1 s α/ lub α 0 F α/ lub F α F Zawsze prawostronny obszr krytyczny testu Gdy s 1 > s ν 1 = n 1-1 ν = n -1 s F obl = s 1 Gdy s 1 < s ν 1 = n -1 ν = n 1-1 s F obl = s 1 H 0 : σ 1 = σ σ 1 = σ H 1 : σ 1 σ σ 1 > σ Reguła decyzyjna Odrzucamy H 0, jeżeli... F obl >F α/(ν1, ν) F obl >F α(ν1, ν) OIE ZMIENNE MUSZĄ MIEĆ ROZKŁAD NORMALNY Przykład Analityk ma rozstrzygnąć, czy akcje dwóch firm A i charakteryzują się tym samym ryzykiem (wariancja miarą ryzyka). Zmienną losową jest cena akcji na kolejnych sesjach giełdy. Wyniki dla dwu próbek dały następujące wyniki. Rozstrzygnij problem przy poziomie 0,05. H 0 : σ 1 = σ I: akcje A n 1 = 5 II: akcje n = 4 H 1 : σ 1 σ x 1 = 4,11 $ x = 3,35 $ s 1 = 1,85 $ s = 1,17 $ F obl =(1,85) /(1,17) =,50 F tabl(0,05;4;3) =,9 Odrzucamy hipotezę zerową. Wariancje populacji nie są sobie równe. Akcje są mniej ryzykowne; mniejsze wahania ceny (decyzja z błędem do 0,05). H 0 : σ 1 = σ F tabl(0,05;4;3) =,01 Wniosek jak powyżej H 1 : σ 1 > σ Przedział ufności dla stosunku wariancji dwu populacji (???) s dolna granica 1 s F α / ( ν, ν = 1) s s F α / ( ν1, ν ) s1 górna granica F α / ( ν, ν1 ) s W przykładzie 1: F 0,05;4;3 =,9 F 0,05;3;4 =,30 1,09<σ 1 / σ <5,75 37
38 Stosowane symbole L liczba klas T drzewo decyzyjne t węzeł drzewa T t poddrzewo drzewa T o korzeniu w węźle t T L zbiór liści drzewa T T L liczba liści drzewa T m liczba przykładów m i liczba przykładów, dla których dany atrybut przyjmuje wartość i-tą m j liczba przykładów klasy c j 38
39 Klasyfikacja jednoetapowa Podczas całego procesu decyzyjnego uwzględniane wszystkie cechy i klasy. sekwencyjna Decyzja rozłożona na szereg prostszych decyzji; w różnych etapach wykorzystywane są różne cechy i uwzględniane różne podzbiory klas. Schemat działania klasyfikatora przedstawia drzewo decyzyjne Drzewo decyzyjne Odległość < 30 km tak nie Pogoda słonecznie deszczowo Działanie klasyfikatora wieloetapowego ilustruje drzewo decyzyjne. Pojęcia: korzeń drzewa, węzeł wewnętrzny, węzeł końcowy (liść), gałąź, ścieżka. 39
40 Drzewo decyzyjne Odległość: 8 Pogoda: deszczowo Odległość < 30 km tak nie Pogoda słonecznie deszczowo Zalety drzew decyzyjnych szybka klasyfikacja zrozumiały proces decyzyjny możliwość aproksymacji złożonych powierzchni decyzyjnych możliwość stosowania cech różnego typu efektywne z punktu widzenia przechowywania w pamięci 40
41 Wady drzew decyzyjnych im więcej klas oraz im bardziej się one nakładają, tym większe drzewo decyzyjne trudno zapewnić jednocześnie wysoką jakość klasyfikacji i małe rozmiary drzewa w węzłach testowany jeden atrybut lokalna optymalizacja metody nieadaptacyjne Konstrukcja drzewa decyzyjnego y a 1 A A AA x y a 1 A A AA x a a 3 y< a 1 y< a 3 tak nie tak nie x< a x< a 1 tak nie tak nie A A 41
42 Konstrukcja drzew decyzyjnych Jeden zbiór danych wiele możliwych drzew Czym należy się kierować wybierając (konstruując) drzewo? Kryteria optymalizacji Globalne Lokalne - średnie prawdopodobieństwo błędu - średnia długość ścieżki - liczba węzłów drzewa - stopień zróżnicowania danych - przyrost informacji - współczynnik przyrostu informacji i inne 4
43 Zstępująca konstrukcja drzew decyzyjnych function Konstrukcja_drzewa(P-przykłady,t-węzeł) if not kryterium_stopu then podział_węzła t for i=a to n (n-liczba węzłów potomnych) Konstrukcja_drzewa(P i,t i ) else utworzenie_liścia t endif end function Utworzenie liścia Do węzła końcowego przypisuje się etykietę tej klasy, której obrazów najwięcej dociera do tego węzła. 43
44 Podział węzła - przykłady A. Cecha porównana z wartością progową (typowe dla atrybutów ciągłych). y i > α i tak nie. Uwzględnione wszystkie możliwe wartości danego atrybutu (typowe dla atrybutów nominalnych). y i y i1 y i y ik Podział węzła Najczęściej reguły decyzyjne budowane są na podstawie pojedynczych cech źródłowych. Prowadzi to do dzielenia przestrzeni cech hiperłaszczyznami prostopadłymi do osi cech. Wybierając cechę można się kierować jedną ze znanych miar, np. przyrostem informacji, wskaźnikiem przyrostu informacji, wskaźnikiem zróżnicowania danych itd. 44
45 Podział węzła w przypadku atrybutów nominalnych A. Dla każdego atrybutu y i oblicz wartość wybranej miary.. Wybierz atrybut optymalny w sensie powyższej miary. 3. Od danego węzła utwórz tyle gałęzi, ile różnych wartości przyjmuje atrybut y i. t y i y i1 yi y ik t 1 t t k Kryteria wyboru atrybutu mierzące różnicę między zbiorem przykładów w węźle t a zbiorami przykładów w węzłach potomnych ze względu na rozkład częstości klas; mierzące różnice między poszczególnymi zbiorami przykładów w węzłach potomnych ze względu na rozkład częstości klas; mierzące statystyczną niezależność między rozkładem klas a podziałem zbioru przykładów na podzbiory. 45
46 Kryteria wyboru atrybutu przyrost informacji Przyrost informacji IM (information measure): IM = H i ci m H = m j m j m H ci m log m j y H, m przykładów y 1 yj y k H 1,m 1 H j, m j Hk, m k Dla każdego atrybutu obliczamy wartość IM i wybieramy atrybut, dla którego wartość ta jest największa (H nie zależy od atrybutu, wystarczy porównywać drugi składnik). Miara IM preferuje atrybuty o dużej liczbie różnych wartości. Kryteria wyboru atrybutu współczynnik przyrostu informacji Współczynik przyrostu informacji GR (gain ratio): GR = IM m j m j log m m j Dla każdego atrybutu obliczamy wartość GR i wybieramy atrybut, dla którego wartość ta jest największa. Miara GR preferuje atrybuty o małej liczbie różnych wartości. 46
47 Kryteria wyboru atrybutu - miara zróżnicowania danych (Gini index) Stopień zróżnicowania danych: i = p k j k j p j = 1 j j p j = 1 Spadek zróżnicowania: m j Δi = i i m j j c m m j Dla każdego atrybutu obliczamy Δi i wybieramy atrybut, dla którego wartość ta jest największa. Kryteria wyboru atrybutu statystyka χ Statystyka χ służy do porównywania rzeczywistych rozkładów z oczekiwanymi. χ c ( m j i ij ) = E E i j ij E ij = mim m c j Dla każdego atrybutu obliczamy χ i wybieramy atrybut, dla którego wartość ta jest największa. 47
48 Eksperymenty pokazują że: Kryteria wyboru atrybutu przedstawione kryteria wyboru atrybutu nie wpływają na błąd klasyfikacji; można otrzymać równie dobre drzewa wybierając atrybuty w węzłach losowo, ale przedstawione miary wpływają na rozmiary skonstruowanego drzewa (przed przycięciem); drzewa, dla których losowano atrybuty zawierają około dwa razy więcej węzłów; przeważnie korzystając z miary GR otrzymuje się najmniejsze drzewa a za pomocą χ największe; na błąd klasyfikacji ma wpływ przycinanie drzewa. Kryterium stopu Możliwe dwa podejścia: 1. Przerwanie rozbudowy drzewa, gdy spełniony jest jeden z poniższych warunków: liczba błędnie klasyfikowanych obrazów jest mniejsza niż ustalony próg; liczba obrazów w węźle jest mniejsza niż ustalony próg; drzewo osiągnęło maksymalny dopuszczalny rozmiar (maksymalna liczba węzłów lub maksymalna wysokość).. Zbudowanie drzewa klasyfikującego poprawnie wszystkie lub prawie wszystkie przykłady, a następnie przycięcie drzewa. 48
49 Przycinanie drzew y A A AA A A A x Cel: zlikwidować nadmierne dopasowanie klasyfikatora do niepoprawnych danych. Przycinanie drzew 1 poprawność 0,8 0,6 0,4 0, zbiór uczący zbiór testowy liczba węzłów 49
50 Przycinanie drzew Na podstawie oddzielnego zbioru przycinania Na podstawie zbioru uczącego Wykorzystujące zasadę minimalnej długości kodu Przycinanie drzew Większość algorytmów przycinania (reduced error pruning, pessimistic error pruning, minimum error pruning) opiera się na następującym schemacie: repeat przeglądaj węzły wewnętrzne drzewa T if błąd dla poddrzewa T t > błąd dla liścia t then zastąp poddrzewo T t liściem przypisz do liścia t etykietę odpowiedniej klasy end if until przycinanie zmniejsza błąd Poszczególne metody różnią się sposobem szacowania błędu oraz kolejnością przeglądania węzłów drzewa. 50
51 Przycinanie drzew reduced error pruning łąd szacowany na podstawie odrębnego zbioru przycinania. Węzły przeglądane od dołu. Poddrzewo T t zastępowane liściem t gdy error(t) error(t t ). Procedura powtarzana dopóki dalsze przycinanie nie zwiększa błędu. Zalety: prostota, niski koszt obliczeniowy. Wady: konieczność poświęcenia części danych na przycinanie; czasem drzewo zostaje przycięte zbyt mocno (zwłaszcza gdy zbiór przycinania jest znacznie mniejszy niż zbiór uczący). Przycinanie drzew reduced error pruning, przykład < 0 wiek 0 typ y A tak nie Zbiór przycinania kolor wiek 1 czarny 11 biały 3 3 czarny 4 czarny 18 typ A y tak tak nie nie Klasa biały 6-1 kolor A 4 5 czarny A 7 - biały typ kolor - A -5 czarny A typ czarny 15 tak - 6 biały 7 nie 51
52 Przycinanie drzew reduced error pruning, przykład < 0 wiek 0 typ y A tak nie 6-0 biały kolor czarny kolor biały czarny A typ typ A 4 5 A 4 5 A Przycinanie drzew reduced error pruning, przykład wiek A -5 A 4 5 A typ < 0 0 tak y nie A 4 5 kolor biały czarny A typ typ A
53 Przycinanie drzew reduced error pruning, przykład < 0 wiek 0 A tak y nie kolor typ biały czarny A 8-7 A 7 - typ Przycinanie drzew reduced error pruning, przykład < 0 wiek 0 A tak y nie biały typ kolor czarny A typ A
54 Przycinanie drzew reduced error pruning, przykład < 0 wiek tak y nie biały kolor czarny A typ Przycinanie drzew pessimistic error pruning łąd szacowany na podstawie zbioru uczącego. Węzły przeglądane od korzenia. Poddrzewo T t o korzeniu w węźle t zastępowane liściem gdy error (t) error (T t ) SE(error (T t )) error (t) = error(t) ½ error (T t ) = error(t t ) ½ T tl SE(error (T t )) = [error (T t )(m(t) - error (T t )) / m(t)] ½. 54
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Bardziej szczegółowoStatystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Bardziej szczegółowoStatystyka matematyczna dla leśników
Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje
Bardziej szczegółowoStatystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r
Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów
Bardziej szczegółowoTestowanie hipotez statystycznych. Wnioskowanie statystyczne
Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy
Bardziej szczegółowoStatystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )
Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału
Bardziej szczegółowoStatystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych
Statystyka matematyczna. Wykład IV. e-mail:e.kozlovski@pollub.pl Spis treści 1 2 3 Definicja 1 Hipoteza statystyczna jest to przypuszczenie dotyczące rozkładu (wielkości parametru lub rodzaju) zmiennej
Bardziej szczegółowoWnioskowanie statystyczne Weryfikacja hipotez. Statystyka
Wnioskowanie statystyczne Weryfikacja hipotez Statystyka Co nazywamy hipotezą Każde stwierdzenie o parametrach rozkładu lub rozkładzie zmiennej losowej w populacji nazywać będziemy hipotezą statystyczną
Bardziej szczegółowoStatystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28
Statystyka #5 Testowanie hipotez statystycznych Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik rok akademicki 2016/2017 1 / 28 Testowanie hipotez statystycznych 2 / 28 Testowanie hipotez statystycznych
Bardziej szczegółowoZawartość. Zawartość
Opr. dr inż. Grzegorz Biesok. Wer. 2.05 2011 Zawartość Zawartość 1. Rozkład normalny... 3 2. Rozkład normalny standardowy... 5 3. Obliczanie prawdopodobieństw dla zmiennych o rozkładzie norm. z parametrami
Bardziej szczegółowoSpis treści 3 SPIS TREŚCI
Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe
Bardziej szczegółowo166 Wstęp do statystyki matematycznej
166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej
Bardziej szczegółowoSTATYSTYKA
Wykład 1 20.02.2008r. 1. ROZKŁADY PRAWDOPODOBIEŃSTWA 1.1 Rozkład dwumianowy Rozkład dwumianowy, 0 1 Uwaga: 1, rozkład zero jedynkowy. 1 ; 1,2,, Fakt: Niech,, będą niezależnymi zmiennymi losowymi o jednakowym
Bardziej szczegółowoStatystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
Bardziej szczegółowoWYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH
WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Było: Estymacja parametrów rozkładu teoretycznego punktowa przedziałowa Przykład. Cecha X masa owocu pewnej odmiany. ZałoŜenie: cecha X ma w populacji rozkład
Bardziej szczegółowoWeryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Bardziej szczegółowoEstymacja punktowa i przedziałowa
Temat: Estymacja punktowa i przedziałowa Kody znaków: żółte wyróżnienie nowe pojęcie czerwony uwaga kursywa komentarz 1 Zagadnienia 1. Statystyczny opis próby. Idea estymacji punktowej pojęcie estymatora
Bardziej szczegółowoStatystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.
Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Hipotezy i Testy statystyczne Każde
Bardziej szczegółowoWykład 3 Hipotezy statystyczne
Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza
Bardziej szczegółowoSzczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Bardziej szczegółowoWykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu
Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)
Bardziej szczegółowoHISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =
HISTOGRAM W pewnych przypadkach interesuje nas nie tylko określenie prawdziwej wartości mierzonej wielkości, ale także zbadanie całego rozkład prawdopodobieństwa wyników pomiarów. W takim przypadku wyniki
Bardziej szczegółowoTablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
Bardziej szczegółowoWnioskowanie statystyczne. Statystyka w 5
Wnioskowanie statystyczne tatystyka w 5 Rozkłady statystyk z próby Próba losowa pobrana z populacji stanowi realizacje zmiennej losowej jak ciąg zmiennych losowych (X, X,... X ) niezależnych i mających
Bardziej szczegółowoWeryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
Bardziej szczegółowoTESTOWANIE HIPOTEZ STATYSTYCZNYCH
TETOWANIE HIPOTEZ TATYTYCZNYCH HIPOTEZA TATYTYCZNA przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Prawdziwość tego przypuszczenia jest oceniana na
Bardziej szczegółowoVI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15
VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady
Bardziej szczegółowoLABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych
Bardziej szczegółowoWnioskowanie statystyczne i weryfikacja hipotez statystycznych
Wnioskowanie statystyczne i weryfikacja hipotez statystycznych Wnioskowanie statystyczne Wnioskowanie statystyczne obejmuje następujące czynności: Sformułowanie hipotezy zerowej i hipotezy alternatywnej.
Bardziej szczegółowoPobieranie prób i rozkład z próby
Pobieranie prób i rozkład z próby Marcin Zajenkowski Marcin Zajenkowski () Pobieranie prób i rozkład z próby 1 / 15 Populacja i próba Populacja dowolnie określony zespół przedmiotów, obserwacji, osób itp.
Bardziej szczegółowoZadania ze statystyki, cz.6
Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z
Bardziej szczegółowoZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.
Opracowała: Joanna Kisielińska ZMIENNE LOSOWE Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R tzn. X: R. Realizacją zmiennej losowej
Bardziej szczegółowoLABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych
Bardziej szczegółowoODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW
ODRZUCANIE WYNIKÓW OJEDYNCZYCH OMIARÓW W praktyce pomiarowej zdarzają się sytuacje gdy jeden z pomiarów odstaje od pozostałych. Jeżeli wykorzystamy fakt, że wyniki pomiarów są zmienną losową opisywaną
Bardziej szczegółowoTestowanie hipotez statystycznych
Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom
Bardziej szczegółowoWydział Matematyki. Testy zgodności. Wykład 03
Wydział Matematyki Testy zgodności Wykład 03 Testy zgodności W testach zgodności badamy postać rozkładu teoretycznego zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy
Bardziej szczegółowoStatystyka matematyczna i ekonometria
Statystyka matematyczna i ekonometria Wykład 5 dr inż. Anna Skowrońska-Szmer zima 2017/2018 Hipotezy 2 Hipoteza zerowa (H 0 )- hipoteza o wartości jednego (lub wielu) parametru populacji. Traktujemy ją
Bardziej szczegółowoSIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY
SIGMA KWADRAT CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY Weryfikacja hipotez statystycznych Statystyka i demografia PROJEKT DOFINANSOWANY ZE ŚRODKÓW NARODOWEGO BANKU POLSKIEGO URZĄD STATYSTYCZNY
Bardziej szczegółowoW rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:
W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: Zmienne losowe skokowe (dyskretne) przyjmujące co najwyżej przeliczalnie wiele wartości Zmienne losowe ciągłe
Bardziej szczegółowoTESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.
TESTY NIEPARAMETRYCZNE 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. Standardowe testy równości średnich wymagają aby badane zmienne losowe
Bardziej szczegółowoWYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH
Bardziej szczegółowoBłędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa
Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie
Bardziej szczegółowoPopulacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu
Bardziej szczegółowoSTATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów
STATYSTYKA MATEMATYCZNA WYKŁAD 4 Testowanie hipotez Estymacja parametrów WSTĘP 1. Testowanie hipotez Błędy związane z testowaniem hipotez Etapy testowana hipotez Testowanie wielokrotne 2. Estymacja parametrów
Bardziej szczegółowoRozkłady statystyk z próby
Rozkłady statystyk z próby Rozkłady statystyk z próby Przypuśćmy, że wykonujemy serię doświadczeń polegających na 4 krotnym rzucie symetryczną kostką do gry, obserwując liczbę wyrzuconych oczek Nr kolejny
Bardziej szczegółowoRachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407
Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Weryfikacja hipotez dotyczących postaci nieznanego rozkładu -Testy zgodności.
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2
STATYSTYKA I DOŚWIADCZALNICTWO Wykład Parametry przedziałowe rozkładów ciągłych określane na podstawie próby (przedziały ufności) Przedział ufności dla średniej s X t( α;n 1),X + t( α;n 1) n s n t (α;
Bardziej szczegółowoSzczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Bardziej szczegółowoRÓWNOWAŻNOŚĆ METOD BADAWCZYCH
RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych
Bardziej szczegółowoSTATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.
Bardziej szczegółowoALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza
Bardziej szczegółowoElementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej
Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Bardziej szczegółowo1 Podstawy rachunku prawdopodobieństwa
1 Podstawy rachunku prawdopodobieństwa Dystrybuantą zmiennej losowej X nazywamy prawdopodobieństwo przyjęcia przez zmienną losową X wartości mniejszej od x, tzn. F (x) = P [X < x]. 1. dla zmiennej losowej
Bardziej szczegółowoTestowanie hipotez statystycznych.
Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie
Bardziej szczegółowoStatystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Bardziej szczegółowoWeryfikacja hipotez statystycznych za pomocą testów statystycznych
Weryfikacja hipotez statystycznych za pomocą testów statystycznych Weryfikacja hipotez statystycznych za pomocą testów stat. Hipoteza statystyczna Dowolne przypuszczenie co do rozkładu populacji generalnej
Bardziej szczegółowoStatystyka matematyczna i ekonometria
Statystyka matematyczna i ekonometria Wykład 5 Anna Skowrońska-Szmer lato 2016/2017 Hipotezy 2 Hipoteza zerowa (H 0 )- hipoteza o wartości jednego (lub wielu) parametru populacji. Traktujemy ją jako prawdziwą
Bardziej szczegółowoW2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.
W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne. dr hab. Jerzy Nakielski Katedra Biofizyki i Morfogenezy Roślin Plan wykładu: 1. Etapy wnioskowania statystycznego 2. Hipotezy statystyczne,
Bardziej szczegółowoVII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15
VII WYKŁAD STATYSTYKA 30/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 7 (c.d) WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności,
Bardziej szczegółowoTestowanie hipotez statystycznych
Temat Testowanie hipotez statystycznych Kody znaków: Ŝółte wyróŝnienie nowe pojęcie pomarańczowy uwaga kursywa komentarz 1 Zagadnienia omawiane na zajęciach 1. Idea i pojęcia teorii testowania hipotez
Bardziej szczegółowoStatystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
Bardziej szczegółowoAnaliza niepewności pomiarów
Teoria pomiarów Analiza niepewności pomiarów Zagadnienia statystyki matematycznej Dr hab. inż. Paweł Majda www.pmajda.zut.edu.pl Podstawy statystyki matematycznej Histogram oraz wielobok liczebności zmiennej
Bardziej szczegółowoSTATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech
TATYTYKA wykład 8 Wnioskowanie Weryfikacja hipotez Wanda Olech Co nazywamy hipotezą Każde stwierdzenie o parametrach rozkładu lub rozkładzie zmiennej losowej w populacji nazywać będziemy hipotezą statystyczną
Bardziej szczegółowoWstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów
Wstęp do probabilistyki i statystyki Wykład 4. Statystyki i estymacja parametrów dr hab.inż. Katarzyna Zakrzewska, prof.agh, Katedra Elektroniki, WIET AGH Wstęp do probabilistyki i statystyki. Wykład 4
Bardziej szczegółowoWIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Test zgodności i analiza wariancji Analiza wariancji Test zgodności Chi-kwadrat Sprawdza się za jego pomocą ZGODNOŚĆ ROZKŁADU EMPIRYCZNEGO Z PRÓBY Z ROZKŁADEM HIPOTETYCZNYM
Bardziej szczegółowoIdea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość
Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę
Bardziej szczegółowoWeryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,
Szacownie nieznanych wartości parametrów (średniej arytmetycznej, odchylenia standardowego, itd.) w populacji generalnej na postawie wartości tych miar otrzymanych w próbie (punktowa, przedziałowa) Weryfikacja
Bardziej szczegółowoLiczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną
Wydział: Zarządzanie i Finanse Nazwa kierunku kształcenia: Finanse i Rachunkowość Rodzaj przedmiotu: podstawowy Opiekun: prof. nadzw. dr hab. Tomasz Kuszewski Poziom studiów (I lub II stopnia): II stopnia
Bardziej szczegółowoweryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)
PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na
Bardziej szczegółowoStatystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
Bardziej szczegółowoStatystyka matematyczna i ekonometria
Statystyka matematyczna i ekonometria prof. dr hab. inż. Jacek Mercik B4 pok. 55 jacek.mercik@pwr.wroc.pl (tylko z konta studenckiego z serwera PWr) Konsultacje, kontakt itp. Strona WWW Elementy wykładu.
Bardziej szczegółowo), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0
Testowanie hipotez Każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy nazywamy hipotezą statystyczną. Hipoteza określająca jedynie wartości nieznanych parametrów liczbowych badanej cechy
Bardziej szczegółowoMetody Statystyczne. Metody Statystyczne.
gkrol@wz.uw.edu.pl #4 1 Sprawdzian! 5 listopada (ok. 45-60 minut): - Skale pomiarowe - Zmienne ciągłe i dyskretne - Rozkład teoretyczny i empiryczny - Miary tendencji centralnej i rozproszenia - Standaryzacja
Bardziej szczegółowoOdchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi
Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska D syst D śr m 1 3 5 2 4 6 śr j D 1
Bardziej szczegółowoIV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15
IV WYKŁAD STATYSTYKA 26/03/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 4 Populacja generalna, próba, losowanie próby, estymatory Statystyka (populacja generalna, populacja próbna, próbka mała, próbka duża, reprezentatywność,
Bardziej szczegółowoPDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
Bardziej szczegółowoSpis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Bardziej szczegółowoTestowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.
Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ
Bardziej szczegółowoTesty nieparametryczne
Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów
Bardziej szczegółowoLABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej
LABORATORIUM 3 Przygotowanie pliku (nazwy zmiennych, export plików.xlsx, selekcja przypadków); Graficzna prezentacja danych: Histogramy (skategoryzowane) i 3-wymiarowe; Wykresy ramka wąsy; Wykresy powierzchniowe;
Bardziej szczegółowoGdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).
PRZYKŁADY TESTÓW NIEPARAMETRYCZNYCH. Test zgodności χ 2. Ten test służy testowaniu hipotezy, czy rozważana zmienna ma pewien ustalony rozkład, czy też jej rozkład różni się od tego ustalonego. Tym testem
Bardziej szczegółowoTESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.
TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy
Bardziej szczegółowoOszacowanie i rozkład t
Oszacowanie i rozkład t Marcin Zajenkowski Marcin Zajenkowski () Oszacowanie i rozkład t 1 / 31 Oszacowanie 1 Na podstawie danych z próby szacuje się wiele wartości w populacji, np.: jakie jest poparcie
Bardziej szczegółowoTemat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1
Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT Anna Rajfura 1 Przykład wprowadzający Wiadomo, że 40% owoców ulega uszkodzeniu podczas pakowania automatycznego.
Bardziej szczegółowoWyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności
Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności Statystyka indukcyjna pozwala kontrolować i oszacować ryzyko popełnienia błędu statystycznego
Bardziej szczegółowoTESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.
TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy
Bardziej szczegółowoTestowanie hipotez statystycznych. Wprowadzenie
Wrocław University of Technology Testowanie hipotez statystycznych. Wprowadzenie Jakub Tomczak Politechnika Wrocławska jakub.tomczak@pwr.edu.pl 10.04.2014 Pojęcia wstępne Populacja (statystyczna) zbiór,
Bardziej szczegółowoWykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap
Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Magdalena Frąszczak Wrocław, 21.02.2018r Tematyka Wykładów: Próba i populacja. Estymacja parametrów z wykorzystaniem metody
Bardziej szczegółowoStatystyka i opracowanie danych - W 4: Wnioskowanie statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407
Statystyka i opracowanie danych - W 4: Wnioskowanie statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Hipotezy i Testy statystyczne Każde badanie naukowe rozpoczyna
Bardziej szczegółowoSYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
Bardziej szczegółowoWykład 9 Wnioskowanie o średnich
Wykład 9 Wnioskowanie o średnich Rozkład t (Studenta) Wnioskowanie dla jednej populacji: Test i przedziały ufności dla jednej próby Test i przedziały ufności dla par Porównanie dwóch populacji: Test i
Bardziej szczegółowoTestowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25
Testowanie hipotez Marcin Zajenkowski Marcin Zajenkowski () Testowanie hipotez 1 / 25 Testowanie hipotez Aby porównać ze sobą dwie statystyki z próby stosuje się testy istotności. Mówią one o tym czy uzyskane
Bardziej szczegółowoHipotezy statystyczne
Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o którego prawdziwości lub fałszywości wnioskuje się na podstawie pobranej próbki losowej. Hipotezy
Bardziej szczegółowoStatystyka w przykładach
w przykładach Tomasz Mostowski Zajęcia 10.04.2008 Plan Estymatory 1 Estymatory 2 Plan Estymatory 1 Estymatory 2 Własności estymatorów Zazwyczaj w badaniach potrzebujemy oszacować pewne parametry na podstawie
Bardziej szczegółowoWeryfikacja hipotez statystycznych za pomocą testów statystycznych
Weryfikacja hipotez statystycznych za pomocą testów statystycznych Weryfikacja hipotez statystycznych za pomocą testów stat. Hipoteza statystyczna Dowolne przypuszczenie co do rozkładu populacji generalnej
Bardziej szczegółowoUwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości
TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu, z którego pochodzi próbka. Hipotezy dzielimy na parametryczne i nieparametryczne. Parametrycznymi
Bardziej szczegółowoWeryfikacja hipotez statystycznych testy dla dwóch zbiorowości
Weryfikacja hipotez statystycznych testy dla dwóch zbiorowości Informatyka 007 009 aktualizacja dla 00 JERZY STEFANOWSKI Instytut Informatyki Politechnika Poznańska Plan wykładu. Przypomnienie testu dla
Bardziej szczegółowoWNIOSKOWANIE STATYSTYCZNE
STATYSTYKA WNIOSKOWANIE STATYSTYCZNE ESTYMACJA oszacowanie z pewną dokładnością wartości opisującej rozkład badanej cechy statystycznej. WERYFIKACJA HIPOTEZ sprawdzanie słuszności przypuszczeń dotyczących
Bardziej szczegółowoTeoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.
Teoria błędów Wskutek niedoskonałości przyrządów, jak również niedoskonałości organów zmysłów wszystkie pomiary są dokonywane z określonym stopniem dokładności. Nie otrzymujemy prawidłowych wartości mierzonej
Bardziej szczegółowo