RÓŻNICOWA EKSPRESJA GENÓW
|
|
- Michał Nowicki
- 8 lat temu
- Przeglądów:
Transkrypt
1 RÓŻNICOWA EKSPRESJA GENÓW
2 Na poprzednim wykładzie skrót
3 Wyniki eksperymentu nie są zgodne z oczekiwaniami Normalizacja
4 Normalizacja Celem normalizacji jest usunięcie systematycznych błędów (czyli wynikających z niedoskonałości technologii) przy zachowaniu informacji biologicznej i wygenerowanie wartości, które będą mogły być porównane pomiędzy eksperymentami, w szczególności jeśli były wygenerowane w innym czasie, miejscu, na innych mikromacierzach, reagentach.
5 Rodzaje normalizacji globalna wszystkie geny biorą udział w wyznaczaniu normalizacji w myśl zasady większość genów nie uległa zróżnicowanej ekspresji, więc dla większości genów M=0 lokalna w celu wyznaczenia czynnika skalującego (normalizującego) używana jest nieznaczna pula punktów: housekeeping genes: geny o stałej ekspresji, niezależnie od warunków; często nie mogą być brane pod uwagę, gdyż nie reprezentują całej gamy intensywności świecenia spike controls RNA/DNA dodane do wszystkich próbek w równym stopniu, mają swoje odpowiedniki w punktach, do których hybrydyzują; hybrydyzacja powinna być stała dla wszystkich eksperymentów
6 Rodzaje normalizacji within przeprowadzana jest dla jednego eksperymentu mikromacierzowego, gdy mamy dwie próbki znakowane innymi kolorami between ma na celu znormalizować wyniki ekspresji genów pomiędzy różnymi eksperymentami Within przeprowadzana jest dla macierzy dwukolorowych (zawsze trzeba wyrównać różnicę w intensywności kolorów). Jeśli zachodzi taka potrzeba, to przeprowadzana jest również normalizacja between. Between przeprowadzana jest dla macierzy jednokolorowych.
7 Normalizacja poprzez skalowanie Lokalizacja i skalowanie to podstawowe pojęcia normalizacji Lokalizacja Poprawia odchylenie przestrzenne lub od barwnika Skalowanie Ujednolicenie różnorodności pomiędzy macierzami Znormalizowany stosunek log intensywności M norm = (M - lokalizacja) / skala Lokalizacja i skala dla różnych mikromacierzy powinna być (prawie) taka sama
8
9 Affymetrix Miary PM ijg, MM ijg Absolutne intensywności dla perfect match i mismatch sonda j dla genu g na mikromacierzy i i = 1,, n: od jednej do setek mikromacierzy (próbek) j = 1,, J: zazwyczaj par sond dla 1 genu/sekwencji g = 1,, G: 10,000-50,000 genów na mikromacierz Sondy błędne (MM) powinny ocenić ilość niespecyficznej hybrydyzacji Użycie wielu sond dla jednej sekwencji/genu powinno zwiększyć jakość oceny RNA
10 Ocena jakości Podobna jak dla macierzy dwukolorowych: Obraz macierzy (zanieczyszczenia) Boxplot z wartościami ekspresji Wykres MAplot Wykres degradacji RNA
11 MAplot M ijg = log 2 (PM ijg ) - log 2 (PM *jg ) Różnica pomiędzy macierzą i a macierzą referencyjną * A ijg = [log 2 (PM ijg )+log 2 (PM *jg )]/2 Średnia intensywność PM *jg jest to mediana dla sondy dla wszystkich mikromacierzy
12 Degradacja RNA RNA degraduje od końca 5 sekwencji, dlatego sondy dla końca 3 danego genu będą świeciły intensywniej niż dla 5 Wykres degradacji pokazuje średnią intensywność dla każdej pozycji zbioru sond (jednego genu) Duży spadek wskazuje na degradację Ważniejsze niż spadek jest zgodność pomiędzy macierzami
13 Preprocessing Korekcja tła Przypadkowy szum Wartości PM i MM Niespecyficzne wiązanie RNA Normalizacja Kalibracja miary dla różnych mikromacierzy Dla sondy, czy dla grupy sond? Których sond/zbiorów używać do normalizacji Podsumowanie Dla każdego zbioru sond jedna wartość ekspresji
14 Metody normalizacji MAS oparte na PM MM dchip oparte na PM MM RMA korekcja tła oparta na PM, normalizacja quantile i wygładzanie mediany GC-RMA RMA z dodatkiem korekcji niespecyficznej hybrydyzacji Cyclic loess normalizacja loess na wykresach MAplot vsn normalizacja stabilizacji wariancji (korekcja tła i normalizacja) Nie ma najlepszej metody normalizacji
15 MAS Dla każdego zbioru sond (A) genu (g) na mikromacierzy i wyznaczamy AvDiff = 1 A (PM j MM j ) jεa Problem: dla około 1/3 sond MM > PM Korekta CT j = MM j, jeśli MM j < PM j mniejsze niż PM j, jeśli MM j PM j sygnał = mean(log(pm j - CT j ))
16 RMA Robust multi-array average (Irizarry et al. 2003) Motywacja: MM może wykryć prawdziwy sygnał dla niektórych próbek Różnica PM oraz tła wzrasta wraz z koncentracją (tak wykazały testy w eksperymentach spike-in)
17 RMA PM ijk = bg ijk + s ijk sygnał dla sondy j z grupy sond k dla mikromacierzy i tło spowodowane przez szum optyczny oraz niespecyficzne wiązanie Korekcja tła jako transformacja B() B(PM ijk ) = E[s ijk Pm ijk ] > 0 s ijk ~ Exp() b ijk ~ normal Przy korekcji tła nie używamy sygnału MM Wartość sygnału jest pozytywna
18 RMA Korekcja tła jako transformacja B(.) Log 2 Kalibracja pomiędzy macierzami poprzez normalizację quantile Podsumowanie sond dla grupy sond przez wygładzanie mediany (regresja)
19 Literatura Yang et al. (2002) Normalization for cdna microarray data: a robust composite method addressing single and multiple slide systematic variation Nucleic Acis Research 30, 4 e15 Irizarry, R. A., Hobbs, B., Collin, F., Beazer-Barclay, Y. D., Antonellis, K. J., Scherf, U., Speed, T. P. (2003). Exploration, Normalization, and Summaries of High Density Oligonucleotide Array Probe Level Data Biostatistics 4, Oshlack, A., Emslie, D., Corcoran, L., and Smyth, G. K. (2007). Normalization of boutique two-color microarrays with a high proportion of differentially expressed probes. Genome Biology 8, R2 Limma userguide Niektóre slajdy zapożyczone z kursu NGFN-Courses in Practical DNA Microarray Analysis
20 RÓŻNICOWA EKSPRESJA GENÓW
21 Szukamy odpowiedzi na pytania Przeprowadzone zostały 2 eksperymenty Zbadaliśmy, że eksperymenty są dobrej jakości Histogram, imageplot, Usunięte zostały błędy systematyczne Korekcja tła, normalizacja plotma, boxplot Które geny znajdujące się na mikromacierzy uległy zróżnicowanej ekspresji? Czy wystarczy posortować po log ratio?
22 3 różne zbiory danych zbiór A Pobrano próbki od 20 pacjentów chorych na raka piersi przed i po 16- tygodniowym leczeniu chemioterapią. Zbadano je przy użyciu mikromacierzy. Chcemy zidentyfikować geny, które uległy podwyższonej i obniżonej ekspresji związanej z leczeniem Data are from the paper of Perou et al. (2000) and are available from the Stanford Microarray Database.
23 3 różne zbiory danych zbiór B Pobrany został szpik kostny od 27 pacjentów cierpiących na białaczkę ALL (acute lymphoblastic leukemia) i od 11 pacjetów cierpiących na białaczkę typu AML (acute myleoid leukemia). Zanalizowano próbki używając mikromacierzy Affymetrixowych Chcemy zidentyfikować geny, które uległy podwyższonej i obniżonej ekspresji w ALL w porównaniu do AML Data are from the paper of Golub et al. (1999) and are available from the Stanford Microarray Database
24 3 różne zbiory danych zbiór C Badano 4 typy nowotworów złośliwych drobnookrągłoniebieskokomórkowych (small round blue cell tumors): Neuroblastoma (nerwiak płodowy) NB, non-hodgkin lymphoma (chłonniak nieziarniczny) NHL, rhabdomyosarcoma (mięśniakomięsak prążkowanokomórkowy) RMS, Ewing tumors (mięsak Ewinga) EWS 63 próbki z tych nowotworów (12, 8, 20, 23 z każdej z grup) Chcemy zidentyfikować geny, które uległy zróżnicowanej ekspresji w jednej z tych 4 grup The data are from the paper of Khan et al. (2001) and are available from the Stanford Microarray Database.
25 W każdym z zestawów szukamy genów o zróżnicowanej ekspresji W zestawie A mamy dane sparowane. Mamy 2 pomiary dla każdego pacjenta: przed i po chemii. Dane są ze sobą powiązane to co nas interesuje to różnica pomiędzy dwoma pomiarami (log ratio), aby wykryć geny z podwyższoną i obniżoną ekspresją (updown-regulated) Pomiary dla każdego pacjenta są odjęte. Sprawdzamy czy mediana lub średnia są różne od 0
26 W zestawie B mamy dane niesparowane. Mamy 2 grupy pacjentów i chcemy zaobserwować jaki jest związek pomiędzy pacjentami w jednej grupie a pacjentami w drugiej grupie. Mamy pomiary dla każdego pacjenta z obu grup. Sprawdzamy czy mediana lub średnia dla obu grup są różne.
27 Dane sparowane (zestaw A) i niesparowane (zestaw B) wymagają odmiennej analizy (sparowany i niesparowany test istotności t) Zestaw danych C składa się z 4 grup i wymaga bardziej skomplikowanej analizy, jak np. analizy wariancji (ANOVA)
28 Wiemy że w zestawie A dla pewnego genu różnica w ekspresji jest 2. Czy na tej podstawie możemy stwierdzić że ten gen uległ zróżnicowanej ekspresji? Czy wystarczy posortować geny po log ratio i wyselekcjonować te, które spełniają założony próg?
29 Cała populacja vs wybrane osobniki Nie możemy zbadać całej populacji chorych na raka Wybieramy reprezentację kilku (dziesięciu) osobników Uogólniamy wyniki na całą populację pacjentów chorych na raka
30 Przeprowadzamy wnioskowanie statystyczne aby stwierdzić czy różnica w ekspresji genu pomiędzy jedną, a drugą grupą badanych osobników wynika z szumu w danych, z różnorodności pomiędzy osobnikami, czy rzeczywiście ze zróżnicowanej ekspresji Dlatego potrzebujemy POWTÓRZEŃ eksperymentów Grupa A Grupa B Im większa liczba powtórzeń, tym pewniejszy wynik
31 Standardowe odchylenie a standardowy błąd Standardowe odchylenie (SD): zmienność pomiarów Standardowy błąd (SE): zmienność średniej z kilku pomiarów n powtórzeń Dane z normalnym rozkładem SE = 1 n SD
32 Hipoteza zerowa H 0 zakłada że geny nie uległy zróżnicowanej ekspresji Zbiór A gen nie uległ zróżnicowanej ekspresji po chemii Zbiór B gen nie uległ zróżnicowanej ekspresji dla wszystkich pacjentów z białaczką typu ALL i AML Jeśli H 0 jest prawdziwa, to znaczy że nie została stwierdzona istotna statystycznie zmiana w ekspresji.
33 Testy statystyczne Każdy test hipotezy zerowej tworzy model, który wyznacza prawdopodobieństwo obserwowanej statystyki, np. średnie zróżnicowanie ekspresji genów. To prawdopodobieństwo to p-value. Im mniejsze tym mniej prawdopodobne, że obserwowane dane pojawiły się przypadkowo i tym bardziej pewne wyniki. Zakładamy że zróżnicowana ekspresja obserwowana dla genów z niską wartością p-value z małym prawdopodobieństwem pojawiła się przypadkowo, a zatem jest skutkiem biologicznego efektu, który testujemy. p-value = 0.01 oznacza że jest 1% szansy na obserwowanie zróżnicowanej ekspresji przez przypadek
34 Niezależność zmiennych Wszystkie testy statystyczne tu prezentowane wymagają, aby zmienne (pomiary) były niezależne. Zbiór A dane nie są niezależne, gdyż badamy pomiary poziomu ekspresji genów dla tych samych pacjentów (przed i po chemii). Dlatego dla każdego pacjenta badamy różnicę w ekspresji przed i po.
35 t-test sparowany dla zbioru A (one-sample test) Dla każdego pacjenta mamy 1 kolumnę liczb, odpowiadających wartościom log ratio (przed i po) dla każdego genu. Dla każdego genu wyznaczamy statystykę t = x s/ n gdzie x to średnia log ratio (dla 1 genu) dla wszystkich pacjentów s to standardowe odchylenie dla grupy pacjentów n to liczba pacjentów SE Wyznaczamy p-value poprzez porównanie t-statystyki z rozkładem T- studenta dla n-1 stopni swobody
36 t-test sparowany dla zbioru A Wykrycie genu ze zróżnicowaną ekspresją zależy od: średniej wartości log ratio odchylenia w populacji (czy jest rozkład normalny) liczby testowanych osobników Można wykryć zmianę w ekspresji rzędu 1.5 (stosunek obu wartości) pod warunkiem że: różnorodność w populacji jest mała im większa badana próba osobników, tym łatwiej jest wykryć zmianę w ekspresji
37 t-test sparowany algorytm dla jednego genu z zestawu A 1. Znormalizuj dane ze zbioru A. Wyznacz stosunek wartości (log ratio) dla próbki eksperymentalnej w stosunku do referencyjnej dla przed i po leczeniu (każdy eksperyment był dwu-kolorowy dlatego porównujemy do referencyjnej próbki) 2. Wyznacz pojedynczą wartość log ratio dla każdego pacjenta, czyli odejmij log ratio przed chemią od log ratio po chemii 3. Wykonaj statystykę t (wyznacz wartość wg wzoru). Wyznaczoną wartość t porównaj z rozkładem t-studenta dla 19 stopni swobody (20 pacjentów - 1). Odczytaj wartość parametru p dla dwustronnego sparowanego testu t
38 t-test niesparowany (two sample test) zestaw B Mamy dwie grupy pacjentów bez żadnego związku pomiędzy nimi. Sprawdzamy czy różnica pomiędzy średnimi w obu grupach jest równa zero. t = x 1 x 2 ( s s 2 2 ) n 1 n 2 x 1 oraz x 2 to średnie w obu grupach s 1 oraz s 2 to odchylenia standardowe w grupach n 1 oraz n 2 to liczność grup
39 t-test niesparowany przykład dla zestawu B Chcemy znaleźć geny, które uległy podwyższonej lub obniżonej ekspresji AML w porównaniu do ALL. 1. Transformujemy dane do logarytmów 2. Dla każdej grupy pacjentów (AML, ALL) wyznaczamy średnią i odchylenie standardowe. Test statystyczny stwierdzi czy obie średnie są równe 3. Wyznaczamy parametr t wg wzoru 4. Odczytujemy wartość parametru p z tablic (rozkład t-studenta)
40 Dane dla genu Metallothinein IB t = 4.35 Porównanie z rozkładem t- studenta z 33 stopniami swobody daje wartość p= Możemy stwierdzić że gen uległ większej ekspresji u pacjentów z AML niż u pacjentów z ALL Średnia Odchylenie st
41 Zestaw A przykład na konieczność rozkładu normalnego gen Diubiquitin Dane surowe nie mają rozkładu normalnego, w przeciwieństwie do danych po transformacji logarytmicznej
42 Zestaw A gen Diubiquitin Przykład jest mało intuicyjny średnia z danych surowych bardziej wskazuje na obniżoną ekspresję Wartości odstające powodują wzrost błędu Dlatego obniżona jest wartość statystyki ale wskazuje konieczność rozkładu normalnego danych
43 Co zrobić jeśli dane nie mają rozkładu normalnego? Dane mikromacierzowe zawierają szum często zdarzają się wartości odstające Analiza danych mikromacierzowych jest wysokoprzepustowa tysiące genów sprawdzane są jednocześnie. Dla każdego genu sprawdzamy czy rozkład jest normalny Geny zawierające wartości odstające (bez rozkładu normalnego) wymagają innej analizy Przy braku rozkładu normalnego w danych lepiej stosować testy nieparametryczne -> dla wszystkich genów
44 Test nieparametryczne Odpowiedniki testów sparowanych i niesparowanych test t sparowany test t niesparowany Test Wilcoxona dla par obserwacji (Wilcoxon sign-rank test) Test Manna-Whitneya = test sumy rang Wilcoxona (Wilcoxon rank-sum test)
45 Test nieparametryczne Test Wilcoxona dla par obserwacji 1. Sortujemy po bezwzględnej wartości różnic (przed i po chemii) 2. Dajemy rangi: 1 dla najmniejszego, 2 dla kolejnego, 3. Wyznaczamy sumę rang dla obserwacji z różnicą dodatnią i ujemną (podwyższona i obniżona ekspresja) 4. Przeliczamy wartość statystyki: średnia/odchylenie standarowe 5. Porównujemy wynik z tablicą dla rozkładu normalnego, aby otrzymać wartość p Test Manna-Whitneya Działa podobnie, z tymże dane z dwóch grup są łączone i dopiero później rangowane
46 Test nieparametryczne - przykład Dla przykładu z zestawu A gen Diubiquitin Otrzymujemy: Unlogged: p-value = Logged p-value = Test Wilcoxona jest odporny na dane odstające (przed transformacją logarytmiczną)
47 Test nieparametryczne przykład nr 2 ALL Test Mann Whitneya: p-value = Test t niesparowany p-value = AML Test t nie jest odpowiedni do analizy i dlatego jego wyniki nie są wiarygodne Brak rozkładu normalnego
48 Test nieparametryczne Zalety Dane nie muszą mieć rozkładu normalnego Testy są odporne na wartości odstające Wady Testy nie maja takiej mocy jak testy parametryczne Moc testu prawdopodobieństwo zaobserwowania pozytywnego wyniku, jeśli rzeczywiście jest pozytywny wynik
49 Odrzucenie hipotezy zerowej Nie-odrzucenie hipotezy zerowej Hipoteza zerowa (H 0 ) jest prawdziwa False positive Błąd I typu True positive poprawne Hipoteza zerowa (H 0 ) jest fałszywa True negative poprawne False negative Błąd II typu H 0
50 Błąd typu I (false positive) Uznajemy że coś jest prawdziwe chociaż nie jest Odrzucona hipoteza zerowa, która mówi że geny nie uległy zróżnicowanej ekspresji Uznajemy zatem że geny uległy zróżnicowanej ekspresji, chociaż faktycznie tak nie było Współczynnik błędów I typu jest nazywany rozmiarem testu i oznaczany przez α. Poziom istotności testu (significance) (1- α) swoistość (specificity)
51 Błąd II typu (false negative) Nie udało się odrzucić hipotezy zerowej, chociaż faktycznie nie była spełniona Nie udało nam się znaleźć genów, które uległy zróżnicowanej ekspresji Oszacowanie prawdopodobieństwa popełnienia błędu II typu oznaczamy przez β. (1- β) nazywamy mocą testu lub czułością (sensitivity)
52 Metoda bootstrap ciągnięcie za sznurówki Utworzenie wystarczająco dużej populacji osobników, poprzez tworzenie grup osobników o takiej samej liczności jak zbiór oryginalny (reprezentacyjna próbka) z losowo wybranych (repróbkowanie) osobników ze zbioru Wyznaczamy statystykę (np. t-test dla niesparowanych) dla każdej z tak utworzonych grup Wyznaczamy statystykę dla zbioru oryginalnego Obliczamy p-value poprzez wyznaczenie proporcji statystyk bootstrapowych, które mają wartość bardziej ekstremalną niż wartość statystyki zbioru oryginalnego
53 Metoda bootstrap przykład dla testu t niesparowanego gen RYK 1. Wyznaczamy statystykę t dla genu RYK t= Tworzymy zbiorów bootstrapowych, każdy składający się z 27 ALL i 11 AML. Zbiory tworzone są przez losowanie wartości ze zbioru oryginalnego 3. Dla każdego bootstrapowego zbioru wyznaczamy statystykę t ( różnych wartości) 4. Z wartości ma absolutną wartość większą niż , co daje nam wartość p < 0.01 Możemy stwierdzić, że gen uległ zróżnicowanej ekspresji
54 Wielokrotne testowanie - problem Z definicji p-value, każdy gen ma 1% szansy posiadania wartości p<0.01, czyli będzie znaczący przy poziomie istotności 1% Dla genów, oczekujemy że o 100 genów przejdzie próg p<0.01 o 10 genów przejdzie próg p<0.001 o 1 gen przejdzie próg p< Dla zestawu A mamy 9216 genów. Jeśli chemioterapia nie miałaby żadnego wpływu na zmianę ekspresji genów to i tak oczekiwalibyśmy, że dla 92 genów p<0.01 Czy gen naprawdę uległ zróżnicowanej ekspresji, czy jest to wynik błędu I typu (false positive)?
55 Kontrolowanie false positives Family-wise error rate (FWER) - Prawdopodobieństwo co najmniej jednego błędu I typu pomiędzy genami wybranymi jako znaczące FWER = Pr(FP > 0) False discovery rate (FDR) - Oczekiwana proporcja błędów I typu spośród odrzuconych FDR = E Q, gdzie Q = FP R, jeśli R > 0 0, jeśli R = 0 R to suma False Positive i True Negative (czyli wszystkich z odrzuconą hipotezą)
56 Korekcja p-value Bonferroni Załóżmy że przeprowadziliśmy testowanie hipotezy dla każdego z n genów, wyznaczyliśmy: statystykę t i dla i-tego genu wartość p i dla i-tego genu Korekcja Bonferroni: p i = min(n pi, 1) Wybierając geny p i α kontrolujemy FWER na poziomie Pr(FP>0) α α- poziom istotności
57 Korekcja Bonferroni - wada Przy dużej liczbie genów korekcja może spowodować, że dla żadnego genu nie będziemy mogli odrzucić hipotezy zerowej
58 Korekcja Benjamini Hochberg Kontrolowanie FDR = E(FP/R) na poziomie α 1. Sortowanie wartości p: p r1 p r2 pr n 2. Wyznaczenie: j' = max{j: p rj (j/n)* α} 3. Odrzucenie hipotezy H rj dla j=1,, j
59 ANOVA One-way ANOVA Dla zestawu C (cztery typy nowotworów złośliwych drobnookrągłoniebiesko-komórkowych) chcemy zidentyfikować geny, które uległy różnicowej ekspresji genów dla co najmniej jednego typu nowotworu Możemy testować każdą parę grup pacjentów oddzielnie (wzrasta błąd pomiarowy false positives) Metoda ANOVA analizuje wszystkie grupy razem zwracając tylko jedną wartość p-value dla każdego genu
60 ANOVA multifactor ANOVA W one way ANOVA badaliśmy jeden czynnik typ raka W multifactor ANOVA możemy sprawdzić czy na ekspresję genów oprócz typu raka ma wpływ także płeć Metoda ANOVA analizuje wszystkie grupy razem zwracając jedną wartość p-value dla każdego badanego czynnika (płeć, typ raka) Dla metody ANOVA możemy zbadać czy odpowiedź na czynniki jest addytywna (czynniki nie są od siebie zależne) czy multiplikatywna (jest interakcja pomiędzy czynnikami)
61 Złagodzona (moderated) statystyka t Dla statystyki t estymujemy wariancję dla każdego genu oddzielnie. Problem zaczyna się gdy mamy tylko kilka powtórzeń w każdej testowanej grupie (2-5) nie możemy przewidzieć poprawnie wariancji Dla złagodzonej statystyki t, zastępujemy wariancję specyficzną dla genu s g 2, wariancją globalną s 0 2 czyli przewidzianą na podstawie tysiąca genów typową wariancję (metoda empirical Bayes) T g ~ X g1 X g2 μs g 2 + λs 0 2 Metoda używana również do kwalifikowania w klientach pocztowych, które z otrzymanych wiadomości są SPAMem
62 Model liniowy Ekspresja genu y j genu w próbce j jest zamodelowana jako liniowo zależna od kilku atrybutów (czynników, jak np. typ komórki, traktowanie) y j = a 1 xj 1 + a 2 xj aj xj k + ε j Współczynniki a j wyznaczane są metodą najmniejszych kwadratów (least squares), albo zachłanną (robust) Trzeba zdefiniować macierz projektową (design matrix) i kontrastów (contrast) Projektowa wskazuje na grupę próbki z mikromacierzy (x ji ze wzoru). Wiersze odpowiadają macierzom, kolumny współczynnikom liniowego modelu Kontrastowa definiuje, które próbki z którymi należy porównać
63 Model liniowy Macierz kontrastów definiuje grupy, które należy porównać (testować istotność (t-test)) Przykład: rozważmy badanie trzech różnych typów raka nerki. Dla każdego genu tworzymy model liniowy y j = a 1 xj 1 + a 2 xj 2 + a 3 xj 3 + ε j gdzie x ji = 1 jeśli typ raka j jest rakiem typu i lub x ji = 0 w p.p. Współczynniki a j estymowane przez metodę minimalnych kwadratów są średnią poziomu ekspresji w grupie.
64 Podsumowanie ebayes i moderated t-test Metoda ta pozwala na efektywne identyfikowanie genów ulegających zróżnicowanej ekspresji, szczególnie wtedy gdy liczba powtórzeń jest niewielka (estymacja wariancji dla pojedynczego genu na podstawie puli wszystkich genów) Moc testu wzrasta (czyli poprawne odrzucenie H 0 ) poprzez wykorzystanie wszystkich genów do estymacji
65 Podsumowanie Badamy różnicową ekspresję genów Zamiast badać log-ratio, badamy czy ta zmiana jest rzeczywiście statystycznie istotna Stawiamy hipotezę zerową (brak różnicy ekspresji genu pomiędzy badanymi grupami) statystyki t sparowane i niesparowane Statystyki t wymagają rozkładu normalnego dla danych wejściowych Często wykorzystuje się statystyki nieparametryczne (Wilcoxon, Mann- Whitney) mniejsza moc testów Abu zwiększyć moc testu wprowadza się metody bootstrapowe Testowanie wielu czynników metoda ANOVA Zbyt mało powtórzeń powoduje że nie możemy przewidzieć rozkładu zmiennych możemy zastosować korekcję Bayesowską i złagodzoną statystykę t (moderated t-test) False discovery rate kontrola false positives, korekcja p-value
Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r
Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów
Testowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
Testy nieparametryczne
Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza
Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )
Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału
VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15
VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady
Testowanie hipotez statystycznych. Wnioskowanie statystyczne
Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy
Wykład 9 Wnioskowanie o średnich
Wykład 9 Wnioskowanie o średnich Rozkład t (Studenta) Wnioskowanie dla jednej populacji: Test i przedziały ufności dla jednej próby Test i przedziały ufności dla par Porównanie dwóch populacji: Test i
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Metody sprawdzania założeń w analizie wariancji: -Sprawdzanie równości (jednorodności) wariancji testy: - Cochrana - Hartleya - Bartletta -Sprawdzanie zgodności
Wykład 3 Hipotezy statystyczne
Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re
Wykład 4 Wybór najlepszej procedury. Estymacja parametrów regresji z wykorzystaniem metody bootstrap. Wrocław, 22.03.2017r Wybór najlepszej procedury - podsumowanie Co nas interesuje przed przeprowadzeniem
Przykład 1. (A. Łomnicki)
Plan wykładu: 1. Wariancje wewnątrz grup i między grupami do czego prowadzi ich ocena 2. Rozkład F 3. Analiza wariancji jako metoda badań założenia, etapy postępowania 4. Dwie klasyfikacje a dwa modele
Wykład 9 Testy rangowe w problemie dwóch prób
Wykład 9 Testy rangowe w problemie dwóch prób Wrocław, 18 kwietnia 2018 Test rangowy Testem rangowym nazywamy test, w którym statystyka testowa jest konstruowana w oparciu o rangi współrzędnych wektora
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4 Inne układy doświadczalne 1) Układ losowanych bloków Stosujemy, gdy podejrzewamy, że może występować systematyczna zmienność między powtórzeniami np. - zmienność
Prawdopodobieństwo i rozkład normalny cd.
# # Prawdopodobieństwo i rozkład normalny cd. Michał Daszykowski, Ivana Stanimirova Instytut Chemii Uniwersytet Śląski w Katowicach Ul. Szkolna 9 40-006 Katowice E-mail: www: mdaszyk@us.edu.pl istanimi@us.edu.pl
Statystyka matematyczna dla leśników
Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje
Testowanie hipotez statystycznych.
Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie
Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych
Statystyka matematyczna. Wykład IV. e-mail:e.kozlovski@pollub.pl Spis treści 1 2 3 Definicja 1 Hipoteza statystyczna jest to przypuszczenie dotyczące rozkładu (wielkości parametru lub rodzaju) zmiennej
LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej
LABORATORIUM 3 Przygotowanie pliku (nazwy zmiennych, export plików.xlsx, selekcja przypadków); Graficzna prezentacja danych: Histogramy (skategoryzowane) i 3-wymiarowe; Wykresy ramka wąsy; Wykresy powierzchniowe;
Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;
LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny
Statystyczna analiza danych
Statystyczna analiza danych Testowanie wielu hipotez statystycznych na raz Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski 1/31 Zdechła ryba i emocje http://www.wired.com/2009/09/fmrisalmon/
Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa
Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie
weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)
PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na
weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)
PODSTAWY STATYSTYKI. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych
SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY
SIGMA KWADRAT CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY Weryfikacja hipotez statystycznych Statystyka i demografia PROJEKT DOFINANSOWANY ZE ŚRODKÓW NARODOWEGO BANKU POLSKIEGO URZĄD STATYSTYCZNY
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH
RÓWNOWAŻNOŚĆ METOD BADAWCZYCH
RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych
TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.
TESTY NIEPARAMETRYCZNE 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. Standardowe testy równości średnich wymagają aby badane zmienne losowe
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych
S t a t y s t y k a, część 3. Michał Żmihorski
S t a t y s t y k a, część 3 Michał Żmihorski Porównanie średnich -test T Założenia: Zmienne ciągłe (masa, temperatura) Dwie grupy (populacje) Rozkład normalny* Równe wariancje (homoscedasticity) w grupach
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.
Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość
Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę
Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu
Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotności, p-wartość i moc testu Wrocław, 01.03.2017r Przykład 2.1 Właściciel firmy produkującej telefony komórkowe twierdzi, że wśród jego produktów
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012
parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,
诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów
Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności
Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności Statystyka indukcyjna pozwala kontrolować i oszacować ryzyko popełnienia błędu statystycznego
Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4
Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4 Konrad Miziński, nr albumu 233703 31 maja 2015 Zadanie 1 Wartości oczekiwane µ 1 i µ 2 oszacowano wg wzorów: { µ1 = 0.43925 µ = X
Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski
Statystyczna analiza danych w programie STATISTICA (wykład ) Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW Weryfikacja (testowanie) hipotez statystycznych
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii
SPIS TREŚCI Przedmowa... 11 Wykaz symboli... 15 Litery alfabetu greckiego wykorzystywane w podręczniku... 15 Symbole wykorzystywane w zagadnieniach teorii mnogości (rachunku zbiorów)... 16 Symbole stosowane
STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów
STATYSTYKA MATEMATYCZNA WYKŁAD 4 Testowanie hipotez Estymacja parametrów WSTĘP 1. Testowanie hipotez Błędy związane z testowaniem hipotez Etapy testowana hipotez Testowanie wielokrotne 2. Estymacja parametrów
Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.
Zadania ze statystyki cz. 8 I rok socjologii Zadanie 1. W potocznej opinii pokutuje przekonanie, że lepsi z matematyki są chłopcy niż dziewczęta. Chcąc zweryfikować tę opinię, przeprowadzono badanie w
Testowanie hipotez statystycznych.
Bioinformatyka Wykład 4 Wrocław, 17 października 2011 Temat. Weryfikacja hipotez statystycznych dotyczących wartości oczekiwanej w dwóch populacjach o rozkładach normalnych. Model 3. Porównanie średnich
STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2
STATYSTYKA I DOŚWIADCZALNICTWO Wykład Parametry przedziałowe rozkładów ciągłych określane na podstawie próby (przedziały ufności) Przedział ufności dla średniej s X t( α;n 1),X + t( α;n 1) n s n t (α;
Zadania ze statystyki cz.8. Zadanie 1.
Zadania ze statystyki cz.8. Zadanie 1. Wykonano pewien eksperyment skuteczności działania pewnej reklamy na zmianę postawy. Wylosowano 10 osobową próbę studentów, których poproszono o ocenę pewnego produktu,
Testy nieparametryczne
Testy nieparametryczne 1 Wybrane testy nieparametryczne 1. Test chi-kwadrat zgodności z rozkładem oczekiwanym 2. Test chi-kwadrat niezależności dwóch zmiennych kategoryzujących 3. Test U Manna-Whitney
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 3. Zmienne losowe 4. Populacje i próby danych 5. Testowanie hipotez i estymacja parametrów 6. Test t 7. Test
Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia
Doświadczalnictwo leśne Wydział Leśny SGGW Studia II stopnia Metody nieparametryczne Do tej pory omawialiśmy metody odpowiednie do opracowywania danych ilościowych, mierzalnych W kaŝdym przypadku zakładaliśmy
Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28
Statystyka #5 Testowanie hipotez statystycznych Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik rok akademicki 2016/2017 1 / 28 Testowanie hipotez statystycznych 2 / 28 Testowanie hipotez statystycznych
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:
ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość
VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15
VII WYKŁAD STATYSTYKA 30/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 7 (c.d) WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności,
Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne
Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25
Testowanie hipotez Marcin Zajenkowski Marcin Zajenkowski () Testowanie hipotez 1 / 25 Testowanie hipotez Aby porównać ze sobą dwie statystyki z próby stosuje się testy istotności. Mówią one o tym czy uzyskane
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
Monte Carlo, bootstrap, jacknife
Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez statystycznych
Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.
Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
MIKROMACIERZE. dr inż. Aleksandra Świercz dr Agnieszka Żmieńko
MIKROMACIERZE dr inż. Aleksandra Świercz dr Agnieszka Żmieńko Informacje ogólne Wykłady będą częściowo dostępne w formie elektronicznej http://cs.put.poznan.pl/aswiercz aswiercz@cs.put.poznan.pl Godziny
Testy post-hoc. Wrocław, 6 czerwca 2016
Testy post-hoc Wrocław, 6 czerwca 2016 Testy post-hoc 1 metoda LSD 2 metoda Duncana 3 metoda Dunneta 4 metoda kontrastów 5 matoda Newman-Keuls 6 metoda Tukeya Metoda LSD Metoda Least Significant Difference
Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego
Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy
STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.
STATYSTYKA MATEMATYCZNA WYKŁAD 4 WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. Wysuwamy hipotezy: zerową (podstawową H ( θ = θ i alternatywną H, która ma jedną z
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Statystyka Matematyczna Anna Janicka
Statystyka Matematyczna Anna Janicka wykład IX, 25.04.2016 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Plan na dzisiaj 1. Hipoteza statystyczna 2. Test statystyczny 3. Błędy I-go i II-go rodzaju 4. Poziom istotności,
PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
Rozdział 8. Regresja. Definiowanie modelu
Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność
Statystyka matematyczna i ekonometria
Statystyka matematyczna i ekonometria Wykład 5 Anna Skowrońska-Szmer lato 2016/2017 Hipotezy 2 Hipoteza zerowa (H 0 )- hipoteza o wartości jednego (lub wielu) parametru populacji. Traktujemy ją jako prawdziwą
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
Statystyka Opisowa z Demografią oraz Biostatystyka. Aleksander Denisiuk. denisjuk@euh-e.edu.pl
Statystyka Opisowa z Demografią oraz Biostatystyka TesttStudenta Aleksander Denisiuk denisjuk@euh-e.edu.pl Elblaska Uczelnia Humanistyczno-Ekonomiczna ul. Lotnicza 2 82-300 Elblag oraz Biostatystyka p.
Elementy statystyki STA - Wykład 5
STA - Wykład 5 Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza 1 ANOVA 2 Model jednoczynnikowej analizy wariancji Na model jednoczynnikowej analizy wariancji możemy traktować jako uogólnienie
Analiza wariancji. dr Janusz Górczyński
Analiza wariancji dr Janusz Górczyński Wprowadzenie Powiedzmy, że badamy pewną populację π, w której cecha Y ma rozkład N o średniej m i odchyleniu standardowym σ. Powiedzmy dalej, że istnieje pewien czynnik
Testowanie hipotez statystycznych
Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom
Spis treści. Księgarnia PWN: Bruce M. King, Edward W. Minium - Statystyka dla psychologów i pedagogów. Wstęp Wprowadzenie...
Księgarnia PWN: Bruce M. King, Edward W. Minium - Statystyka dla psychologów i pedagogów Wstęp... 13 1. Wprowadzenie... 19 1.1. Statystyka opisowa.................................. 21 1.2. Wnioskowanie
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu
Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)
Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22
Spis treści Przedmowa do wydania pierwszego.... 11 Przedmowa do wydania drugiego.... 15 Wykaz symboli.... 17 Litery alfabetu greckiego wykorzystywane w podręczniku.... 17 Symbole wykorzystywane w zagadnieniach
), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0
Testowanie hipotez Każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy nazywamy hipotezą statystyczną. Hipoteza określająca jedynie wartości nieznanych parametrów liczbowych badanej cechy
Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 5 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.medexp3.dta przygotuj model regresji kwantylowej 1. Przygotuj model regresji kwantylowej w którym logarytm wydatków
Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów
Wstęp do probabilistyki i statystyki Wykład 4. Statystyki i estymacja parametrów dr hab.inż. Katarzyna Zakrzewska, prof.agh, Katedra Elektroniki, WIET AGH Wstęp do probabilistyki i statystyki. Wykład 4
Hipotezy statystyczne
Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o którego prawdziwości lub fałszywości wnioskuje się na podstawie pobranej próbki losowej. Hipotezy
Hipotezy statystyczne
Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o którego prawdziwości lub fałszywości wnioskuje się na podstawie pobranej
Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.
Teoria błędów Wskutek niedoskonałości przyrządów, jak również niedoskonałości organów zmysłów wszystkie pomiary są dokonywane z określonym stopniem dokładności. Nie otrzymujemy prawidłowych wartości mierzonej
Statystyka matematyczna i ekonometria
Statystyka matematyczna i ekonometria Wykład 5 dr inż. Anna Skowrońska-Szmer zima 2017/2018 Hipotezy 2 Hipoteza zerowa (H 0 )- hipoteza o wartości jednego (lub wielu) parametru populacji. Traktujemy ją
TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.
TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy
166 Wstęp do statystyki matematycznej
166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej
WNIOSKOWANIE STATYSTYCZNE
STATYSTYKA WNIOSKOWANIE STATYSTYCZNE ESTYMACJA oszacowanie z pewną dokładnością wartości opisującej rozkład badanej cechy statystycznej. WERYFIKACJA HIPOTEZ sprawdzanie słuszności przypuszczeń dotyczących
Statystyka i Analiza Danych
Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki -
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap
Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Magdalena Frąszczak Wrocław, 21.02.2018r Tematyka Wykładów: Próba i populacja. Estymacja parametrów z wykorzystaniem metody
WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH
WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Było: Estymacja parametrów rozkładu teoretycznego punktowa przedziałowa Przykład. Cecha X masa owocu pewnej odmiany. ZałoŜenie: cecha X ma w populacji rozkład