Metody radzenia sobie z brakującymi obserwacjami
|
|
- Jolanta Tomczak
- 8 lat temu
- Przeglądów:
Transkrypt
1 Metody radzenia sobie z brakującymi obserwacjami 29 kwietnia 2009
2 Wprowadzenie są to informacje, które zamierzaliśmy zebrać, ale nam się to nie udało. Przykłady: Badany odpowiada tylko na niektóre pytania zawarte w ankiecie Pacjent przestaje przychodzić na badania kontrolne
3 Wprowadzenie są to informacje, które zamierzaliśmy zebrać, ale nam się to nie udało. Przykłady: Badany odpowiada tylko na niektóre pytania zawarte w ankiecie Pacjent przestaje przychodzić na badania kontrolne
4 Przykładowy zbiór danych Np. Wiek Głosował Partia Płeć 1 21 TAK OP M 2 43 TAK SIP NA 3 19 NIE K 4 32 TAK NA M 5 NA NIE K 6 27 TAK DLS K 7 55 NA NA M 8 39 TAK LSP M
5 Przykładowy zbiór danych Np. Wiek Głosował Partia Płeć 1 21 TAK OP M 2 43 TAK SIP NA 3 19 NIE K 4 32 TAK NA M 5 NA NIE K 6 27 TAK DLS K 7 55 NA NA M 8 39 TAK LSP M
6 Proste metody Proste metody radzenia sobie z brakującymi obserwacjami (BO): Odrzucenie przypadków zawierających BO Uzupełnienie BO Wstawienie wartości średniej Wstawienie ostatniej zaobserwowanej wartości Stworzenie dodatkowej kategorii Metoda dedukcji
7 Odrzucenie przypadków zawierających BO Np. Wiek Głosował Partia Płeć 1 21 TAK OP M 3 19 NIE K 6 27 TAK DLS K 8 39 TAK LSP M Analizujemy jedynie przypadki bez żadnej BO. Strata dużej ilości informacji Potencjalna utrata reprezentatywności danych (jeżeli występowanie BO nie jest losowe)
8 Odrzucenie przypadków zawierających BO Np. Wiek Głosował Partia Płeć 1 21 TAK OP M 3 19 NIE K 6 27 TAK DLS K 8 39 TAK LSP M Analizujemy jedynie przypadki bez żadnej BO. Strata dużej ilości informacji Potencjalna utrata reprezentatywności danych (jeżeli występowanie BO nie jest losowe)
9 Uzupełnianie BO - wartość średnia Np. Wiek NA» 28 W miejsce BO wstawiamy wartość średnią zmiennej losowej opisującej daną cechę. Nie można stosować do zmiennych jakościowych Osłabienie zależności pomiędzy zmiennymi Niedoszacowanie wariancji
10 Uzupełnianie BO - wartość średnia Np. Wiek NA» 28 W miejsce BO wstawiamy wartość średnią zmiennej losowej opisującej daną cechę. Nie można stosować do zmiennych jakościowych Osłabienie zależności pomiędzy zmiennymi Niedoszacowanie wariancji
11 Uzupełnianie BO - ostatnia zaobserwowana wartość Np NA» 2.0 NA» NA» 3.5 W miejsce BO wstawiamy ostatnią zaobserwowaną wartość badanej cechy. Poważnie zaburza strukturę wartości średnich i kowariancji, nawet w przypadku gdy występowanie BO jest całkowicie losowe
12 Uzupełnianie BO - ostatnia zaobserwowana wartość Np NA» 2.0 NA» NA» 3.5 W miejsce BO wstawiamy ostatnią zaobserwowaną wartość badanej cechy. Poważnie zaburza strukturę wartości średnich i kowariancji, nawet w przypadku gdy występowanie BO jest całkowicie losowe
13 Uzupełnianie BO - dodatkowa kategoria Np. Głosował NA» 2 Tworzymy nową wartość (kategorię BO ) dla zmiennej jakościowej. Dwie bardzo różne kategorie mogą zostać skupione w jednej grupie Metoda w dużym stopniu zależy od podziału danych pomiędzy prawdziwymi kategoriami
14 Uzupełnianie BO - dodatkowa kategoria Np. Głosował NA» 2 Tworzymy nową wartość (kategorię BO ) dla zmiennej jakościowej. Dwie bardzo różne kategorie mogą zostać skupione w jednej grupie Metoda w dużym stopniu zależy od podziału danych pomiędzy prawdziwymi kategoriami
15 Uzupełnienie BO - metoda dedukcji Czasami możliwe jest uzupełnienie BO metodą dedukcji - przykładowo, gdy ktoś zaznaczył w ankiecie, że jest bezrobotny, ale nie podał swoich zarobków, możemy wydedukować, że wynoszą one 0.
16 Proste metody - podsumowanie Proste metody mogą prowadzić do błędnych wyników - nie powinny być używane, chyba że proporcja BO do wszystkich danych jest bardzo mała Niestety ciężko zdefiniować, co to znaczy mała - oszacowania szansy zajścia rzadkiego zdarzenia mogą być bardzo wrażliwe nawet na kilka BO
17 Proste metody - podsumowanie Proste metody mogą prowadzić do błędnych wyników - nie powinny być używane, chyba że proporcja BO do wszystkich danych jest bardzo mała Niestety ciężko zdefiniować, co to znaczy mała - oszacowania szansy zajścia rzadkiego zdarzenia mogą być bardzo wrażliwe nawet na kilka BO
18 Typy niekompletności danych Chcemy przyjrzeć się w jaki sposób prawdopodobieństwo tego, że dana obserwacja jest BO zależy od pozostałych zmiennych i od niej samej Wyróżniamy następujące typy niekompletności danych: MCAR (Missing completely at random) MAR (Missing at random) MNAR (Missing not at random)
19 Typy niekompletności danych Chcemy przyjrzeć się w jaki sposób prawdopodobieństwo tego, że dana obserwacja jest BO zależy od pozostałych zmiennych i od niej samej Wyróżniamy następujące typy niekompletności danych: MCAR (Missing completely at random) MAR (Missing at random) MNAR (Missing not at random)
20 MCAR Występowanie BO jest całkowicie losowe - tak jakbyśmy rzucali kostką, żeby zadecydować, które obserwacje usunąć Innymi słowy - prawdopodobieństwo, że dana obserwacja jest BO nie zależy od wartości żadnej z obserwowanych zmiennych Przykład: W laboratorium została upuszczona jedna z probówek
21 MCAR Występowanie BO jest całkowicie losowe - tak jakbyśmy rzucali kostką, żeby zadecydować, które obserwacje usunąć Innymi słowy - prawdopodobieństwo, że dana obserwacja jest BO nie zależy od wartości żadnej z obserwowanych zmiennych Przykład: W laboratorium została upuszczona jedna z probówek
22 MCAR Występowanie BO jest całkowicie losowe - tak jakbyśmy rzucali kostką, żeby zadecydować, które obserwacje usunąć Innymi słowy - prawdopodobieństwo, że dana obserwacja jest BO nie zależy od wartości żadnej z obserwowanych zmiennych Przykład: W laboratorium została upuszczona jedna z probówek
23 MAR Prawdopodobieństwo, że dana obserwacja jest BO nie zależy od wartości niezaobserwowanych zmiennych Przykład: Pacjent może zostać wykluczony z badania, jeżeli jego stan zdrowia pogorszy się (przekroczy jakąś wcześniej ustaloną wartość badanej cechy)
24 MAR Prawdopodobieństwo, że dana obserwacja jest BO nie zależy od wartości niezaobserwowanych zmiennych Przykład: Pacjent może zostać wykluczony z badania, jeżeli jego stan zdrowia pogorszy się (przekroczy jakąś wcześniej ustaloną wartość badanej cechy)
25 MNAR Jeżeli niekompletność nie jest typu MCAR, ani MAR to jest typu MNAR Prawdopodobieństwo, że dana obserwacja jest BO zależy od wartości pewnych niezaobserwowanych zmiennych Przykład: Pacjent może zrezygnować z badania, jeżeli leczenie wywoła u niego jakieś nieprzyjemne efekty uboczne
26 MNAR Jeżeli niekompletność nie jest typu MCAR, ani MAR to jest typu MNAR Prawdopodobieństwo, że dana obserwacja jest BO zależy od wartości pewnych niezaobserwowanych zmiennych Przykład: Pacjent może zrezygnować z badania, jeżeli leczenie wywoła u niego jakieś nieprzyjemne efekty uboczne
27 Typy niekompletności danych - podsumowanie Analizując dane nie potrafimy stwierdzić czy mamy do czynienia z MCAR, MAR czy MNAR Mimo to potrafimy odróżnić MCAR od MAR Nigdy nie możemy wykluczyć MNAR, ponieważ zależy on od danych niezaobserwowanych Zatem typ niekompletności jest kwestią przyjętych założeń
28 Typy niekompletności danych - podsumowanie Analizując dane nie potrafimy stwierdzić czy mamy do czynienia z MCAR, MAR czy MNAR Mimo to potrafimy odróżnić MCAR od MAR Nigdy nie możemy wykluczyć MNAR, ponieważ zależy on od danych niezaobserwowanych Zatem typ niekompletności jest kwestią przyjętych założeń
29 R - impute {Hmisc} Funkcja impute służy do przeprowadzania prostych imputacji. Przyjmuje następujące argumenty: x - wektor, w którym chcemy wykonać imputację fun - funkcja używana w imputacji (domyślnie mediana), może też być pojedynczą wartością lub wektorem
30 R - aregimpute {Hmisc} Funkcja aregimpute służy do przeprowadzania wielokrotnych imputacji. Korzysta ona z metody PMM. Najważniejsze argumenty: formula - model n.impute - liczba imputacji data - zbiór danych
Metody uzupełniania brakujacych danych statystycznych.
Metody uzupełniania brakujacych danych statystycznych. Arleta Hoppe, Michał Krzemiński Naukowe Koło Matematyki Studentów Politechniki Gdańskiej Outline 1. Omówienie zagadnienia występowania brakujących
Bardziej szczegółowoMetody wypełniania braków w danych ang. Missing values in data
Analiza danych wydobywanie wiedzy z danych III Metody wypełniania braków w danych ang. Missing values in data W rzeczywistych zbiorach danych dane są często nieczyste: - niekompletne (brakujące ważne atrybuty,
Bardziej szczegółowoZadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012
Bardziej szczegółowoMetody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4
Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4 Co z danymi oddalonymi? Błędne dane typu dochód z minusem na początku: to błąd we wprowadzaniu danych, czy faktyczny
Bardziej szczegółowoMikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 5 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.medexp3.dta przygotuj model regresji kwantylowej 1. Przygotuj model regresji kwantylowej w którym logarytm wydatków
Bardziej szczegółowoPrawdopodobieństwo i statystyka r.
Prawdopodobieństwo i statystyka 9.06.999 r. Zadanie. Rzucamy pięcioma kośćmi do gry. Następnie rzucamy ponownie tymi kośćmi, na których nie wypadły szóstki. W trzeciej rundzie rzucamy tymi kośćmi, na których
Bardziej szczegółowoSTUDIA PODYPLOMOWE BEZPIECZEŃSTWO I HIGIENA PRACY
STUDIA PODYPLOMOWE BEZPIECZEŃSTWO I HIGIENA PRACY Ocena ryzyka zawodowego to proste! 17-10-15 Wprowadzenie 1. Ryzyko zawodowe narzędzie do poprawy warunków pracy Kodeks pracy: 1991 r. - art. 215 1996 r.
Bardziej szczegółowoALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza
Bardziej szczegółowoMetody probabilistyczne
Metody probabilistyczne. Twierdzenia graniczne Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 20.2.208 / 26 Motywacja Rzucamy wielokrotnie uczciwą monetą i zliczamy
Bardziej szczegółowoElementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa
Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący
Bardziej szczegółowoLABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.
LABORATORIUM 4 1. Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz. I) WNIOSKOWANIE STATYSTYCZNE (STATISTICAL INFERENCE) Populacja
Bardziej szczegółowoEstymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014
Estymacja przedziałowa - przedziały ufności dla średnich Wrocław, 5 grudnia 2014 Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja Przedziałem ufności dla paramertu
Bardziej szczegółowoWykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne
Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład
Bardziej szczegółowoPytanie: Kiedy do testowania hipotezy stosujemy rozkład normalny?
Pytanie: Kiedy do testowania hipotezy stosujemy rozkład normalny? Gdy: badana cecha jest mierzalna (tzn. posiada rozkład ciągły); badana cecha posiada rozkład normalny; dysponujemy pojedynczym wynikiem;
Bardziej szczegółowoMETODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II
METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II Podział zmiennych Zmienne zależne zmienne, które są przedmiotem badania, których związki z innymi zmiennymi chcemy określić Zmienne
Bardziej szczegółowoWykład 10 Estymacja przedziałowa - przedziały ufności dla średn
Wykład 10 Estymacja przedziałowa - przedziały ufności dla średniej Wrocław, 21 grudnia 2016r Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja 10.1 Przedziałem
Bardziej szczegółowoStosowana Analiza Regresji
Model jako : Stosowana Analiza Regresji Wykład XI 21 Grudnia 2011 1 / 11 Analiza kowariancji Model jako : Oprócz czynnika o wartościach nominalnych chcemy uwzględnić wpływ predyktora o wartościach ilościowych
Bardziej szczegółowoWykład 3 Hipotezy statystyczne
Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza
Bardziej szczegółowoPDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
Bardziej szczegółowoStatystyka w analizie i planowaniu eksperymentu
29 marca 2011 Przestrzeń statystyczna - podstawowe zadania statystyki Zdarzeniom losowym określonym na pewnej przestrzeni zdarzeń elementarnych Ω można zazwyczaj na wiele różnych sposobów przypisać jakieś
Bardziej szczegółowoStatystyka w analizie i planowaniu eksperymentu
31 marca 2014 Przestrzeń statystyczna - podstawowe zadania statystyki Zdarzeniom losowym określonym na pewnej przestrzeni zdarzeń elementarnych Ω można zazwyczaj na wiele różnych sposobów przypisać jakieś
Bardziej szczegółowoStatystyka matematyczna i ekonometria
Statystyka matematyczna i ekonometria Wykład 5 Anna Skowrońska-Szmer lato 2016/2017 Hipotezy 2 Hipoteza zerowa (H 0 )- hipoteza o wartości jednego (lub wielu) parametru populacji. Traktujemy ją jako prawdziwą
Bardziej szczegółowoWeryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
Bardziej szczegółowoSTATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny 2. Zmienne losowe i teoria prawdopodobieństwa 3. Populacje i próby danych 4. Testowanie hipotez i estymacja parametrów 5. Najczęściej wykorzystywane testy statystyczne
Bardziej szczegółowo5. WNIOSKOWANIE PSYCHOMETRYCZNE
5. WNIOSKOWANIE PSYCHOMETRYCZNE Model klasyczny Gulliksena Wynik otrzymany i prawdziwy Błąd pomiaru Rzetelność pomiaru testem Standardowy błąd pomiaru Błąd estymacji wyniku prawdziwego Teoria Odpowiadania
Bardziej szczegółowoStatystyka matematyczna i ekonometria
Statystyka matematyczna i ekonometria Wykład 5 dr inż. Anna Skowrońska-Szmer zima 2017/2018 Hipotezy 2 Hipoteza zerowa (H 0 )- hipoteza o wartości jednego (lub wielu) parametru populacji. Traktujemy ją
Bardziej szczegółowoSYSTEMATYCZNOŚĆ BRAKÓW DANYCH W BADANIACH SONDAŻOWYCH. Jakub Rutkowski
SYSTEMATYCZNOŚĆ BRAKÓW DANYCH W BADANIACH SONDAŻOWYCH Jakub Rutkowski NA NA NA NA NA NA NA NA NA NA Braki danych 3 Wskaźnik zrealizowania próby (response rate): Wskaźnik frakcji jednostek niedostępnych
Bardziej szczegółowoKlasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Bardziej szczegółowoStatystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoWykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu
Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoTestowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
Bardziej szczegółowoMETODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Bardziej szczegółowoTypy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe
Typy zmiennych Graficzne reprezentacje danych Statystyki opisowe Jakościowe charakterystyka przyjmuje kilka możliwych wartości, które definiują klasy Porządkowe: odpowiedzi na pytania w ankiecie ; nigdy,
Bardziej szczegółowoLaboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:
Laboratorium nr 1 CZĘŚĆ I : STATYSTYKA OPISOWA : 1. Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby: 6,9,1,2,5,2,6,2,1,0,1,4,5,6,3,7,3,2,2,3,8,5,3,4,8,0,8,0,5,1,6,4,8,0,3,2
Bardziej szczegółowoWykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA
Wykład 4: Wnioskowanie statystyczne Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Idea wnioskowania statystycznego Celem analizy statystycznej nie jest zwykle tylko
Bardziej szczegółowoMETODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Bardziej szczegółowoTRANSFORMACJE I JAKOŚĆ DANYCH
METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING TRANSFORMACJE I JAKOŚĆ DANYCH Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Bardziej szczegółowoKlienci (opcjonalnie)
CO TO JEST MYVIEW 360 LIDER I CZEMU SŁUŻY? To narzędzie do pozyskiwania informacji zwrotnej z wielu źródeł, zwanej oceną 360 stopni. Zostało zaprojektowane, aby wspierać rozwój menedżerów. Zawiera informacje
Bardziej szczegółowoW kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:
Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,
Bardziej szczegółowoStatystyka i Analiza Danych
Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania wybranych technik regresyjnych do modelowania współzależności zjawisk Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki
Bardziej szczegółowoPrawdopodobieństwo i statystyka r.
Zadanie. Niech (X, Y) ) będzie dwuwymiarową zmienną losową, o wartości oczekiwanej (μ, μ, wariancji każdej ze współrzędnych równej σ oraz kowariancji równej X Y ρσ. Staramy się obserwować niezależne realizacje
Bardziej szczegółowoStatystyka Matematyczna Anna Janicka
Statystyka Matematyczna Anna Janicka wykład IX, 25.04.2016 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Plan na dzisiaj 1. Hipoteza statystyczna 2. Test statystyczny 3. Błędy I-go i II-go rodzaju 4. Poziom istotności,
Bardziej szczegółowoStatystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r
Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów
Bardziej szczegółowoHierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Bardziej szczegółowoRozkłady dwuwymiarowe. Tablice dwudzielcze. Przykład (wstępny):
Rozkłady dwuwymiarowe Rozkłady brzegowe Rozkłady warunkowe Niezależność Kowariancja Współczynnik korelacji (Przykłady na tablicy) Tablice dwudzielcze Najprostsze tablice 2x2 : dwa rzędy i dwie kolumny
Bardziej szczegółowoWprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta
Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta www.michalbereta.pl W tej części: Zachowanie wytrenowanego modelu w celu późniejszego użytku Filtrowanie danych (brakujące etykiety
Bardziej szczegółowoStatystyka w analizie i planowaniu eksperymentu
22 marca 2011 Przestrzeń statystyczna - podstawowe zadania statystyki Zdarzeniom losowym określonym na pewnej przestrzeni zdarzeń elementarnych Ω można zazwyczaj na wiele różnych sposobów przypisać jakieś
Bardziej szczegółowoWydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła
12.03.2017 Wydział Inżynierii Produkcji I Logistyki Statystyka opisowa Wykład 3 Dr inż. Adam Deptuła METODY OPISU DANYCH ILOŚCIOWYCH SKALARNYCH Wykresy: diagramy, histogramy, łamane częstości, wykresy
Bardziej szczegółowoInstytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów
Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa Diagnostyka i niezawodność robotów Laboratorium nr 6 Model matematyczny elementu naprawialnego Prowadzący: mgr inż. Marcel Luzar Cele ćwiczenia:
Bardziej szczegółowoLiczby losowe i pętla while w języku Python
Liczby losowe i pętla while w języku Python Mateusz Miotk 17 stycznia 2017 Instytut Informatyki UG 1 Generowanie liczb losowych Na ogół programy są spójne i prowadzą do przewidywanych wyników. Czasem jednak
Bardziej szczegółowoPrzykład 1. (A. Łomnicki)
Plan wykładu: 1. Wariancje wewnątrz grup i między grupami do czego prowadzi ich ocena 2. Rozkład F 3. Analiza wariancji jako metoda badań założenia, etapy postępowania 4. Dwie klasyfikacje a dwa modele
Bardziej szczegółowoMIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy
MIARY POŁOŻENIA Opisują średni lub typowy poziom wartości cechy. Określają tą wartość cechy, wokół której skupiają się wszystkie pozostałe wartości badanej cechy. Wśród nich można wyróżnić miary tendencji
Bardziej szczegółowoStanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12
Stanisław Cichocki Natalia Nehrebecka Zajęcia 11-12 1. Zmienne pominięte 2. Zmienne nieistotne 3. Obserwacje nietypowe i błędne 4. Współliniowość - Mamy 2 modele: y X u 1 1 (1) y X X 1 1 2 2 (2) - Potencjalnie
Bardziej szczegółowoCharakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)
Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące
Bardziej szczegółowoOszacowanie i rozkład t
Oszacowanie i rozkład t Marcin Zajenkowski Marcin Zajenkowski () Oszacowanie i rozkład t 1 / 31 Oszacowanie 1 Na podstawie danych z próby szacuje się wiele wartości w populacji, np.: jakie jest poparcie
Bardziej szczegółowoRozkłady zmiennych losowych
Rozkłady zmiennych losowych Wprowadzenie Badamy pewną zbiorowość czyli populację pod względem występowania jakiejś cechy. Pobieramy próbę i na podstawie tej próby wyznaczamy pewne charakterystyki. Jeśli
Bardziej szczegółowoJeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.
Wykład 4 Rozkłady i ich dystrybuanty Dwa typy zmiennych losowych Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x, x 2,...}, to mówimy, że jest to zmienna dyskretna.
Bardziej szczegółowoW rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:
W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: Zmienne losowe skokowe (dyskretne) przyjmujące co najwyżej przeliczalnie wiele wartości Zmienne losowe ciągłe
Bardziej szczegółowoTESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.
TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy
Bardziej szczegółowoLiczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego
Ewaluacja biegłości językowej Od pomiaru do sztuki pomiaru Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego Tomasz Żółtak Instytut Badań Edukacyjnych oraz
Bardziej szczegółowoStatystyczne sterowanie procesem
Statystyczne sterowanie procesem SPC (ang. Statistical Process Control) Trzy filary SPC: 1. sporządzenie dokładnego diagramu procesu produkcji; 2. pobieranie losowych próbek (w regularnych odstępach czasu
Bardziej szczegółowo... prognozowanie nie jest celem samym w sobie a jedynie narzędziem do celu...
4 Prognozowanie historyczne Prognozowanie - przewidywanie przyszłych zdarzeń w oparciu dane - podstawowy element w podejmowaniu decyzji... prognozowanie nie jest celem samym w sobie a jedynie narzędziem
Bardziej szczegółowoRozkłady prawdopodobieństwa zmiennych losowych
Rozkłady prawdopodobieństwa zmiennych losowych Rozkład dwumianowy Rozkład normalny Marta Zalewska Zmienna losowa dyskretna (skokowa) jest to zmienna, której zbór wartości jest skończony lub przeliczalny.
Bardziej szczegółowoModele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4
Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4 Konrad Miziński, nr albumu 233703 31 maja 2015 Zadanie 1 Wartości oczekiwane µ 1 i µ 2 oszacowano wg wzorów: { µ1 = 0.43925 µ = X
Bardziej szczegółowoWprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe
Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje
Bardziej szczegółowoMETODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Bardziej szczegółowoAby przygotować się do kolokwiów oraz do egzaminów należy ponownie przeanalizować zadania
Chemia Budowlana - Wydział Chemiczny - 1 Aby przygotować się do kolokwiów oraz do egzaminów należy ponownie przeanalizować zadania rozwiązywane na wykładzie, rozwiązywane na ćwiczeniach, oraz samodzielnie
Bardziej szczegółowoStatystyka opisowa. Wykład VI. Analiza danych jakośiowych
Statystyka opisowa. Wykład VI. e-mail:e.kozlovski@pollub.pl Spis treści Rangowanie 1 Rangowanie 3 Rangowanie Badaniu statystycznemu czasami podlegają cechy niemierzalne jakościowe), np. kolor włosów, stopień
Bardziej szczegółowoALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Prawdopodobieństwo i rozkłady Zdarzenia losowe Prawdopodobieństwo warunkowe Prawdopodobieństwo bayesowskie
Bardziej szczegółowoStatystyka matematyczna i ekonometria
Statystyka matematyczna i ekonometria Wykład 11 Anna Skowrońska-Szmer lato 2016/2017 Powtórzenie materiału 2 Zadanie 1 Wykład 1 Eksperyment polega na pojedynczym rzucie symetryczną kostką. Przestrzeń zdarzeń
Bardziej szczegółowoZad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:
Zadania ze statystyki cz. 7. Zad.1 Z populacji wyłoniono próbę wielkości 64 jednostek. Średnia arytmetyczna wartość cechy wyniosła 110, zaś odchylenie standardowe 16. Należy wyznaczyć przedział ufności
Bardziej szczegółowoZ poprzedniego wykładu
PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne
Bardziej szczegółowoAnaliza statystyczna w naukach przyrodniczych
Analiza statystyczna w naukach przyrodniczych Po co statystyka? Człowiek otoczony jest różnymi zjawiskami i próbuje je poznać, dowiedzieć się w jaki sposób funkcjonują, jakie relacje między nimi zachodzą.
Bardziej szczegółowoESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW
ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW POPULACJI Szkic wykładu Wprowadzenie 1 Wprowadzenie 2 3 4 Przypomnienie dotychczasowych rozważań Przedziałem ufności nazywamy przedział losowy, o którym przypuszczamy
Bardziej szczegółowoWykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu
Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotności, p-wartość i moc testu Wrocław, 01.03.2017r Przykład 2.1 Właściciel firmy produkującej telefony komórkowe twierdzi, że wśród jego produktów
Bardziej szczegółowoPrzykładowe zadania na egzamin z matematyki - dr Anita Tlałka - 1
Przykładowe zadania na egzamin z matematyki - dr Anita Tlałka - 1 Zadania rozwiązywane na wykładzie Zadania rozwiązywane na ćwiczeniach Przy rozwiązywaniu zadań najistotniejsze jest wykazanie się rozumieniem
Bardziej szczegółowoStatystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )
Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału
Bardziej szczegółowoPropensity Score Matching
Zajęcia 2 Plan dzisiejszych zajęć 1 Doświadczenia Idealne doświadczenie Nie-idealne doświadczenia 2 Idealne doświadczenie Nie-idealne doświadczenia Plan idealnego doświadczenia (eksperymentu) Plan doświadczenia
Bardziej szczegółowo6.4 Podstawowe metody statystyczne
156 Wstęp do statystyki matematycznej 6.4 Podstawowe metody statystyczne Spóbujemy teraz w dopuszczalnym uproszczeniu przedstawić istotę analizy statystycznej. W szczególności udzielimy odpowiedzi na postawione
Bardziej szczegółowoPrzykłady 6.1 : charakterystyki liczbowe rozkładów dyskretnych
Rachunek Prawdopodobieństwa MAP8 Wydział Matematyki, Matematyka Stosowana Przykłady 6. Wartość oczekiwana, wariancja, mediana, kwartyle rozkładu prawdopodobieństwa. Transformacje zmiennej losowej. Opracowanie:
Bardziej szczegółowoOPIS MODUŁ KSZTAŁCENIA (SYLABUS)
OPIS MODUŁ KSZTAŁCENIA (SYLABUS) I. Informacje ogólne: 1 Nazwa modułu Metody opracowania obserwacji 2 Kod modułu 04-A-MOO-60-1L 3 Rodzaj modułu obowiązkowy 4 Kierunek studiów astronomia 5 Poziom studiów
Bardziej szczegółowoSTATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.
Bardziej szczegółowoAnaliza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
Bardziej szczegółowoSTATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny 2. Zmienne losowe i teoria prawdopodobieństwa 3. Populacje i próby danych 4. Testowanie hipotez i estymacja parametrów 5. Najczęściej wykorzystywane testy statystyczne
Bardziej szczegółowoWykład 5: Statystyki opisowe (część 2)
Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz
Bardziej szczegółowoRozstęp Pozycyjne Odchylenie ćwiartkowe Współczynnik zmienności
Miary zmienności: Miary zmienności Klasyczne Wariancja Odchylenie standardowe Odchylenie przeciętne Współczynnik zmienności Rozstęp Pozycyjne Odchylenie ćwiartkowe Współczynnik zmienności 2 Spróbujmy zastanowić
Bardziej szczegółowoUwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości
TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu, z którego pochodzi próbka. Hipotezy dzielimy na parametryczne i nieparametryczne. Parametrycznymi
Bardziej szczegółowoRozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26
Rozkład normalny Marcin Zajenkowski Marcin Zajenkowski () Rozkład normalny 1 / 26 Rozkład normalny Krzywa normalna, krzywa Gaussa, rozkład normalny Rozkłady liczebności wielu pomiarów fizycznych, biologicznych
Bardziej szczegółowoTECHNIKA DRZWI ZATRZAŚNIĘTE PRZED NOSEM
Badanie pilotażowe TECHNIKA DRZWI ZATRZAŚNIĘTE PRZED NOSEM Czy łatwa prośba etyczna zostanie spełniona istotnie częściej jeśli poprzedzi się ją nieetyczną prośbą trudną? H0 nie, H1 tak. Schemat eksperymentu
Bardziej szczegółowoNiech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.
Prawdopodobieństwo i statystyka 3..00 r. Zadanie Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX 4 i EY 6. Rozważamy zmienną losową Z. X + Y Wtedy (A) EZ 0,
Bardziej szczegółowoWyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności
Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności Statystyka indukcyjna pozwala kontrolować i oszacować ryzyko popełnienia błędu statystycznego
Bardziej szczegółowoRozkład zajęć, statystyka matematyczna, Rok akademicki 2015/16, semestr letni, Grupy dla powtarzających (C15; C16)
Rozkład zajęć, statystyka matematyczna, Rok akademicki 05/6, semestr letni, Grupy powtarzających (C5; C6) Lp Grupa C5 Grupa C6 Liczba godzin 0046 w godz 600-000 C03 0046 w godz 600-000 B05 4 6046 w godz
Bardziej szczegółowoweryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)
PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na
Bardziej szczegółowoRozkłady zmiennych losowych
Rozkłady zmiennych losowych 1 Zmienne losowe dyskretne 1.1 Rozkład dwumianowy Zad.1.1.1 Prawdopodobieństwo dziedziczenia pewnej cechy wynosi 0,7. Jakie jest prawdopodobieństwo, że spośród pięciu potomków
Bardziej szczegółowoElektrotechnika II [ Laboratorium Grupa 1 ] 2016/2017 Zimowy. [ Laboratorium Grupa 2 ] 2016/2017 Zimowy
Elektrotechnika II [ Laboratorium Grupa ] 206/207 Zimowy Lp Numer indeksu Pkt Kol Suma Popr Ocena Data Uwagi 97574 6 7 Db + 2 9758 ++0,9 5 7,9 Db + 3 99555 0,9+0,9 2,8 Dst + 4 97595 0,8++ 0 2,8 Dst + 5
Bardziej szczegółowoDokładne i graniczne rozkłady statystyk z próby
Dokładne i graniczne rozkłady statystyk z próby Przypomnijmy Populacja Próba Wielkość N n Średnia Wariancja Odchylenie standardowe 4.2 Rozkład statystyki Mówimy, że rozkład statystyki (1) jest dokładny,
Bardziej szczegółowoPróbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)
Wykład 4 Próbkowanie i rozkłady próbkowe µ = średnia w populacji, µ=ey, wartość oczekiwana zmiennej Y σ= odchylenie standardowe w populacji, σ =(Var Y) 1/2, pierwiastek kwadratowy wariancji zmiennej Y,
Bardziej szczegółowo